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内 容 简 介 


本 书 介绍 了 TensorFlow 的 基础 原理 和 应 用 ， 并 侧重 于 结合 实际 例 
子 讲解 使 用 TensorFlow 的 方法 。TensorFlow 目 前 最 主要 的 应 用 是 在 机 器 
学 习 和 深度 学 习 领 域 ， 本 书 讲解 了 全 连接 神经 网 络 、 卷 积 神经 网 络 、 
循环 神经 网 络 、 深 度 强化 学 习 等 常见 的 深度 学 习 模 型 ， 还 介绍 了 
TensorBoard 、 单 机 多 GPU 并 行 、 分 布 式 并 行 ，TF Leam 和 其 他 
TensorFlow 辅 助 组 件 。 

本 书 适 合 有 一 定 深度 学 习 基 础 和 代码 编写 能 力 的 读者 ， 书 中 对 深 
度 学 习 技 术 也 有 一 定 的 介绍 。 
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“AI and Machine Learning are going to be a key part of our future.We 
made TensorFlow open source to bring these technologies to everyone and 
help move the world forward.This book is a great example of the 
TensorFlow community giving back to multiply everyone’s efforts.” 


Engineering Director of TensorFlow, Rajat Monga 


TensorFlow 的 开源 对 整个 学 术 界 及 工业 界 都 产生 了 巨大 的 影响 ， 
可 以 比 做 机 器 学 习 的 Hadoop。 本 书 涵盖 了 从 多 层 感知 机 、CNN、RNN 
到 强化 学 习 等 一 系列 模型 的 TensorFlow 实 现 ; 在 详尽 地 介绍 算法 和 模 
型 的 细节 的 同时 穿插 实际 的 代码 ， 对 帮助 读者 快速 建立 算法 和 代码 的 
联系 大 有 助 益 ; 对 入 门 TensorFlow 和 深度 学 习 的 研究 者 来 说 是 一 份 非 
常 好 的 学 习 材 料 。 


360 首 席 科 学 家 ， 颜 水 成 


TensorFlow 是 基于 Computation Graph 的 机 器 学 习 框 架 ， 支 持 GPU 
和 分 布 式 ， 是 目前 最 有 影响 力 的 开源 深度 学 习 系 统 。TensorFlow 的 工 
程 实现 非 常 优秀 ， 拓 展 也 非常 灵活 ， 对 机 器 学 习 尤 其 是 深度 学 习 的 推 
广大 有 神 益 。 本 书 结合 了 大 量 的 实际 例子 ， 清 晰 地 讲解 了 如 何 使 用 
TensorFlow 构 筑 常见 的 深度 学 习 模 型 ， 可 通读 也 可 作为 工具 书 查阅 。 
在 本 书 上 市 前 ， 国 内 还 没有 介绍 TensorFlow 的 技术 书籍 ， 推 荐 对 
TensorFlow 或 深度 学 习 感 兴趣 的 人 士 阅读 此 书 。 


北京 大 学 计算 机 系 教授 MBSE SRSA IR, E 


深度 学 习 乃 至 人 工 智能 正 逐 渐 在 FinTech 领 域 发 挥 巨 大 的 作用 ， 其 
应 用 包括 自动 报告 生成 、 金 融 智 能 搜索 、 量 化 交易 和 智能 投 顾 。 而 
TensorFlow 为 金融 业 方 便 地 使 用 深度 学 习 提 供 了 可 能 。 本 书 介绍 了 通 
过 TensorFlow 实 现 各 类 神经 网 络 的 案例 ， 非 常 适合 初学 者 快速 入 门 。 


PPmoney CTO， 康 德 胜 


TensorFlow 是 Google 开 源 的 一 套 深 度 学 习 框 架 ， 已 发 展 成 为 最 主 
流 的 深度 学 习 框 架 ， 目 前 在 市 面 上 没有 看 到 关于 TensorFlow 的 中 文书 
籍 出 版 。 本 书 一 方面 一 步 步 地 介绍 了 TensorFlow 的 使 用 方法 ， 使 得 没 
有 使 用 过 的 人 可 以 很 快 上 手 使 用 ; 另 一 方面 ， 讲 解 了 诸如 卷 积 神经 网 
络 、 循 环 神经 网 络 、 强 化 学 习 、 自 编码 器 等 深度 学 习 知 识 SEAS 
深度 学 习 的 人 也 可 以 入 门 。 本 书 在 介绍 基本 知识 和 原理 的 同时 ， 用 实 
例 进行 讲解 ， 比 较 适 合 初学 者 学 习 使 用 TensorFlow 及 深度 学 习 知识 。 

格 灵 深 瞳 CTO， 邓 亚 峰 


《TensorFlow 实 战 》 由 浅 入 深 ， 透 过 大 量 的 代码 实例 ， 为 读者 揭 
开 深 度 学 习 的 层 层面 纱 ， 加 深 理 论 理解 的 同时 ， 也 更 好 地 联系 了 实际 
应 用 。 


小 米 图 像 算 法 资深 工程 师 ， 万 韶华 
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AlphaGo 在 2017 年 年 初 化 身 Master， 在 弈 城 和 野 狐 等 平台 上 连 胜 中 
日 韩 围棋 高 手 ， 其 中 包括 围棋 世界 冠军 井 山 裕 太 、 朴 廷 桓 、 柯 洁 等 ， 
还 有 棋 圣 及 卫 平 ， 总 计 取 得 60 连 胜 ， 未 澄 败绩。 遥想 2016 年 3 月 ， 当 时 
AlphaGo 挑 战 李 世 石 还 一 度 不 被 看 好 ， 到 今日 已 经 可 以 完胜 各 位 高 
手 。AlphaGo 背 后 神秘 的 推动 力 就 是 TensorFlow 一 一 Google 于 2015 年 11 
月 开源 的 机 器 学 习 及 深度 学 习 框 架 。DeepMind 宣 布 全 面 迁 移 到 
TensorFlow 后 ，AlphaGo 的 算法 训练 任务 就 全 部 放 在 了 TensorFlow 这 套 
分 布 式 框架 上 。 


TensorFlow 在 2015 年 年 底 一 出 现 就 受到 了 极 大 的 关注 ， 在 一 个 月 
内 获得 了 GitHub 上 超过 一 万 颗 星 的 关注 ， 目 前 在 所 有 的 机 器 学 习 、 深 
度 学 习 项 目 中 排名 第 一 ， 甚 至 在 所 有 的 Python 项 目 中 也 排名 第 一 。 本 
书 将 重点 从 实用 的 层面 ， 为 读者 讲解 如 何 使 用 TensorFlow 实 现 全 连接 
神经 网 络 、 卷 积 神经 网 络 、 循 环 神经 网 络 ， 乃 至 Deep Q-Network。 同 
时 结合 TensorFlow 原 理 ， 以 及 深度 学 习 的 部 分 知识 ， 尽 可 能 让 读者 通 
过 学 习 本 书 做 出 实际 项 目 和 成 果 。 


本 书 各 章节 间 没 有 太 强 的 依赖 关系 ， 如 果 读 者 对 某 一 章 感 兴趣 ， 
可 以 直接 阅读 。 本 书 使 用 TensorFlow 1.0.0-rc0 作 为 示例 讲解 ， 应 该 与 
最 新 版 的 TensorFlow 兼 容 绝 大 部 分 代码 ， 可 能 存在 少数 接口 的 更 新 ， 
读者 可 参阅 提示 信息 。 书 中 大 部 分 代码 是 Python 代码 ， 这 也 是 
TensorFlow 支 持 的 最 全 、 最 完整 的 接口 语言 。 


本 书 的 前 两 章 介 绍 了 TensorFlow 的 基础 知识 和 概念 。 第 3 章 和 第 4 
章 介 绍 了 简单 的 示例 及 全 连接 神经 网 络 。 第 5 章 和 第 6 章 介 绍 了 基础 的 
卷 积 神经 网 络 ， 以 及 目前 比较 经 典 的 AlexNet、VGGNet、Inception Net 
和 ResNet。 第 7 章 介 绍 了 Word2Vec、RNN 和 LSTM。 第 8 章 介 绍 了 强化 
学 习 ， 以 及 基于 深度 学 习 的 策略 网 络 和 估 值 网 络 。 第 9 章 介 绍 了 
TensorBoard、 单 机 多 GPU 并 行 ， 以 及 分 布 式 并 行 。 


第 10 章 介绍 了 TensorFlow 里 面 的 contrib.learn 模 块 ， 包 含 许 多 类 型 
的 深度 学 习 及 流行 的 机 器 学 习 算法 的 使 用 方法 ， 也 解析 了 这 个 模块 的 


分 布 式 Estimator 的 基本 架构 ， 以 及 如 何 使 用 Estimator 快 速 搭建 自己 的 
分 布 式 机 器 学 习 模 型 架构 ， 进 行 模 型 的 训练 和 评估 ， 也 介绍 了 如 何 使 
用 监督 器 更 好 地 监测 和 跟踪 模型 的 训练 及 使 用 DataFrame 读 取 不 同 的 数 
据 格 式 。 第 11 章 介绍 了 Contrib 模 块 ， 这 个 模块 里 提供 了 许多 机 器 学 习 
需要 的 功能 ， 包 括 统 计 分 布 、 机 器 学 习 层 、 优 化 水 数 、 指 标 ， 等 等 。 
本 章 将 简单 介绍 其 中 的 一 些 功能 让 大 家 了 解 TensorFlow 的 涵盖 范围 ， 
并 感受 到 社区 的 积极 参与 和 贡献 度 。 第 10 章 和 第 11 章 使 用 了 
TensorFlow 0.11.0-rc0 版 本 作为 示例 讲解 。 


作者 在 写作 本 书 时 ， 获 得 了 亲人、 同事 、 好 友 的 帮助 ， 在 此 非常 
感谢 你 们 的 支持 。 
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1 TensorFlow 基 础 


1.1 ”TensorFlow 概 要 


Google 第 一 代 分 布 式 机 器 学 习 框架 DistBelief!+ ， 在 内 部 大 规模 使 用 后 
并 没有 选择 开源 。 而 后 第 二 代 分 布 式 机 器 学 习 系统 TensorFlow? 终于 选择 
于 2015 年 11 月 在 GitHub 上 开源 ， 且 在 2016 年 4 月 补充 了 分 布 式 版 本 ， 并 于 
2017 年 1 月 发 布 了 1.0 版 本 的 预览 ，API 接 口 趋 于 稳定 。 目 前 TensorFlow 仍 
处 于 快速 开发 迭代 中 ， 有 大 量 新 功能 及 性 能 优化 在 持续 研发。TensorFlow 
最 早 由 Google Brain 的 研究 员 和 工程 师 开 发 ， 设 计 初 囊 是 加 速 机 器 学 习 的 
研究 ， 并 快速 地 将 研究 原型 转化 为 产品 。Google 选 择 开 产 TensorFlow 的 原 
因 也 非常 简单 : 第 一 是 希望 通过 社区 的 力量 ， 让 大 家 一 起 完善 
TensorFlow。 之 前 Google 内 部 DistBelief 及 TensorFlow 的 用 户 就 贡献 了 非常 
多 的 意见 和 反馈 ， 使 得 产品 质量 得 到 了 快速 提升 ; 第 二 是 回馈 社区 ， 
Google 希 望 让 这 个 优秀 的 工具 得 到 更 多 的 应 用 ， 从 整体 上 提高 学 术 界 力 
至 工业 界 使 用 深度 学 习 的 效率 。 际 了 TensorFlow，Google 也 开源 过 大 量 成 
功 的 项 目 ， 包 括 大 名 见 见 的 移动 操作 系统 Android、 浏 览 器 Chromium、 编 
程 语 言 Go、JavaScript 引 擎 Y8、 数 据 交 换 框 架 Protobuf、 编 译 工 具 Bazel、 
OCR 工 具 Tesseract 等 共计 数 百 个 高 质量 的 项 目 。 


TensorFlow 的 官方 网 址 : www.tensorflow.org 
GitHub 网 址 : github.com/tensorflow/tensorflow 
模型 仓库 网 址 : github.com/tensorflow/models 


TensorFlow 既 是 一 个 实现 机 器 学 习 算 法 的 接口 ， 同 时 也 是 执行 机 器 学 
习 算 法 的 框架 。 它 前 端 支持 Python、C++、Go、Java 等 多 种 开发 语言 ， 后 
端 使 用 C++、CUDA 等 写成 。TensorFlow 实 现 的 算法 可 以 在 众多 异 构 的 系 
统 上 方便 地 移植 ， 比 如 Android 手 机 、iPhone、 普 通 的 CPU 服务 器 ， 旋 至 
大 规模 GPU 集 群 ， 如 图 1-1 所 示 。 除 了 执行 深度 学 习 算 法 ，TensorFlow 还 
可 以 用 来 实现 很 多 其 他 算法 ， 包 括 线 性 回归 、 人 逻辑 回归 、 随 机 和 森林 等 。 
TensorFlow 建 立 的 大 规模 深度 学 习 模 型 的 应 用 场景 也 非常 广 ， 包 括 语音 识 
别 、 自 然 语言 处 理 、 计 算 机 视觉 、 机 器 人 控制 、 信 息 抽 取 、 药 物 研 发 、 


分 子 活动 预测 等 ， 使 用 TensorFlow 开 发 的 模型 也 在 这 些 领 域 获得 了 最 前 治 
的 成 果 。 


1-1 TensorFlow 基 础 架构 


为 了 研究 超大 规模 的 深度 神经 网 络 ，Google 在 2011 年 启动 了 Google 
Brain 项 目 ， 同 时 开发 了 第 一 代 的 分 布 式 机 器 学 习 框 架 DistBelief。 有 超过 
50 个 Google 的 团队 在 他 们 的 产品 中 使 用 了 DistBelief， 比 如 Google Search 
中 的 搜索 结果 排序 、Google Photos 中 的 图 片 标注 、Google Translate 中 的 自 
然 语 言 处 理 等 ， 都 依赖 于 DistBelief 建 立 的 深度 学 习 模型 。Google 基 于 使 
用 DistBelief 时 的 经 验 及 训练 大 规模 分 布 式 神经 网 络 的 需求 ， 开 发 了 
TensorFlow 一 一 第 二 代 分 布 式 机 器 学 习 算 法 实现 框架 和 部 署 系统 。Google 
将 著名 的 Inception Net 从 DistBelief 移 植 到 TensorFlow 后 ， 获 得 了 6 倍 的 训练 
速度 提升 。 目 前 ， 在 Google 内 部 使 用 TensorFlow 的 项 目 呈 爆炸 性 的 增长 趋 
势 ， 在 2016 年 已 经 有 起 过 2000 个 项 目 使 用 了 TensorFlow 建 立 的 深度 学 习 模 
型 ， 而 且 这 个 数字 还 在 高 速 增长 中 ， 如 图 1-2 所 示 。 
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图 1-2 ”TensorFlow 在 Google 的 使 用 趋势 


TensorFlow 使 用 数据 流 式 图 来 规划 计算 流程 ， 它 可 以 将 计算 映射 到 不 
同 的 硬件 和 操作 系统 平台 。 和 凭借 着 统一 的 架构 ，TensorFlow 可 以 方便 地 部 
署 到 各 种 平台 ， 大 大 简化 了 真实 场景 中 应 用 机 器 学 习 的 难度 。 使 用 
TensorFlow 我 们 不 需要 给 大 规模 的 模型 训练 和 小 规模 的 应 用 部 署 开发 两 套 
不 同 的 系统 ， 避 免 了 同时 维护 两 套 程序 的 成 本 ，TensorFlow 给 训练 和 预测 
的 共同 部 分 提供 了 一 个 恰当 的 抽象 。TensorFlow 的 计算 可 以 表示 为 有 状态 
的 数据 流 式 图 ， 对 于 大 规模 的 神经 网 络 训练 ，TensorFlow 可 以 让 用 户 简单 
地 实现 并 行 计 算 ， 同 时 使 用 不 同 的 硬件 资产 进行 训练 ， 同 步 或 异步 地 更 
新 全 局 共享 的 模型 参数 和 状态 。 将 一 个 串 行 的 TensorFlow 算 法 改造 成 并 
行 的 成 本 也 是 非常 低 的 ， 通 常 只 需要 对 小 部 分 代码 进行 改写 。 相 比 于 
DistBelief，TensorFlow 的 计算 模型 更 简洁 灵活 ， 计 算 性 能 显著 提升 ， 同 时 
支持 更 多 的 异 构 计算 系统 。 大 量 Google 内 部 的 DistBelief 用 户 转 向 了 
TensorFlow， 他 们 使 用 TensorFlow 进 行 各 种 研究 和 产品 开发 ， 包 括 在 手机 
上 跑 计 算 机 视觉 模型 ， 或 是 训练 有 数 百 亿 参 数 、 数 千 亿 数据 的 神经 网 络 
模型 。 虽 然 绝 大 多 数 的 TensorFlow 应 用 都 在 机 器 学 习 及 深度 学 习 领 域 ， 但 
TensorFlow 抽 象 出 的 数据 流 式 图 也 可 以 应 用 在 通用 数值 计算 和 符号 计算 
上 ， 比 如 分 形 图 计算 或 者 偏 微分 方程 数值 求解 。 表 1-1 所 示 为 TensorFlow 
的 主要 技术 特性 。 

表 1-1 TensorFlow 的 主要 技术 特性 
Dataflow-like model ( 数据 流 模型 ) 


Python, C++, Go, Rust, Haskell, Java ( 还 有 
R 的 支持 ) 


编程 模型 


:= 官方 的 Julia, JavaScript. 


部 署 Code once, run everywhere ( 一 次 编写 ， 各 处 运行 ) 


CPU (Linux, Mac, Windows, Android, iOS ) 
计算 资源 GPU (Linux, Mac, Windows ) 
TPU (Tensor Processing Unit， 张 量 计算 单元 ， 主 要 用 作 推 断 ) 


Local Implementation ( 单机 实现 ) 


saci Distributed Implementation (分 布 式 实现 ) 
平台 支持 Google Cloud Platform ( 谷歌 云 平台 ) 
Hadoop File System ( Hadoop 分 布 式 文件 系统 ) 
数学 表达 Math Graph Expression ( 数学 计算 图 表达 ) 
Auto Differentiation ( 目 动 微分 ) 
Common Subexpression Elimination (共同 子 图 消除 ) 
Asynchronous Kernel Optimization ( 异步 核 优 化 ) 
ee Communication Optimization ( 通信 优化 ) 


Model Parallelism ( 模型 并 行 ) 
Data Parallelism ( 数据 并 行 ) 
Pipeline (流水线 ) 


1.2 ”TensorFlow 编 程 模 型 简介 


1.2.1 ”核心 概念 


TensorFlow 中 的 计算 可 以 表示 为 一 个 有 向 图 (directed graph) ， 或 称 
计算 图 (computation graph) ， 其 中 每 一 个 运算 操作 (operation) 将 作为 
一 个 节点 (node) ， 节 点 与 节点 之 间 的 连接 称 为 边 (edge) 。 这 个 计算 图 
描述 了 数据 的 计算 流程 ， 它 也 负责 维护 和 更 新 状态 ， 用 户 可 以 对 计算 图 
的 分 支 进行 条 件 控制 或 循环 操作 。 用 户 可 以 使 用 Python、C++、Go、Java 
等 几 种 语言 设计 这 个 数据 计算 的 有 向 图 。 计 算 图 中 每 一 个 节点 可 以 有 任 
意 多 个 输入 和 任意 多 个 输出 ， 每 一 个 节点 描述 了 一 种 运算 操作 ， 节 点 可 
以 算是 运算 操作 的 实例 化 (instance) 。 在 计算 图 的 边 中 流动 (flow) 的 
数据 被 称 为 张 量 (tensor) ， 故 得 名 TensorFlow。 而 tensor 的 数据 类 型 ， 可 
以 是 事先 定义 的 ， 也 可 以 根据 计算 图 的 结构 推断 得 到 。 有 一 类 特殊 的 边 
中 没有 数据 流动 ， 这 种 边 是 依赖 控制 (control dependencies) ， 作 用 是 让 
它 的 起 始 节点 执行 完 之 后 再 执行 目标 节点 ， 用 户 可 以 使 用 这 样 的 边 进行 
灵活 的 条 件 控制 ， 比 如 限制 内 存 使 用 的 最 高 峰值 。 下 面 是 用 Python 设计 并 
执行 计算 图 的 示例 。 计 算 图 示例 如 图 1-3 所 示 。 


import tensorflow as tf 
b=tf.Variable(tf.zeros([100])) # 生成 100 维 的 向 量 ， 初 始 化 为 8 
W=tf.Variable(tf.random_uniform([784,100],-1,1)) # ÆW 784x100 的 随机 矩阵 W 
x=tf.placeholder(name="x" ) # AHI Placeholder 
relu=tf.nn.relu(tf.matmul(W, x)+b) # ReLU(Wx+b) 
C=[...] # 根据 ReLU 函数 的 结果 计算 Cost 
s=tf.Session() 
for step in range(@, 10): 
input=...construct 10@-D input array... # 为 输入 创建 一 个 166 维 的 向 量 
result=s.run(C, feed _dict={x: input}) # 获取 Cost， 供 给 输入 x 
print(step, result) 
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图 1-3 ”计算 图 示例 


一 个 运算 操作 代表 了 一 种 类 型 的 抽象 运算 ， 比 如 矩阵 乘法 或 者 向 量 


加 法 。 运 算 操作 可 以 有 上 自己 的 属性 ， 但 是 所 有 属性 必须 被 预先 设置 ， 或 
者 能 在 创建 计算 图 时 被 推断 出 来 。 通 过 设置 运算 操作 的 属性 可 以 用 来 支 
持 不 同 的 tensor 元 素 类 型 ， 比 如 让 向 量 加 法 支持 浮 点 数 (float) 或 者 整数 


(int) 。 运 算 核 (kernel) 是 一 个 运算 操作 在 某 个 具体 硬件 (比如 在 CPU 


或 者 GPU 中 ) 的 实现 。 在 TensorFlow 中 ， 可 以 通过 注册 机 制 加 入 新 的 运算 
操作 或 者 运算 核 。 表 1-2 所 示 为 部 分 TensorFlow 内 建 的 运算 操作 。 


表 1-2 ”TensorFlow 内 建 的 运算 操作 


类 型 示 例 
标量 运算 Add, Sub, Mul, Div, Exp, Log, Greater, Less, Equal 


类 型 7R 例 
向 量 运算 Concat, Slice, Split, Constant, Rank, Shape, Shuffle 
矩阵 运算 MatMul、 MatrixInverse, MatrixDeterminant 
带 状态 的 运算 Variable, Assign, AssignAdd 
神经 网 络 组 件 SoftMax 、Sigmoid 、ReLU 、Convolution2D MaxPooling 
诸 存 、 恢 复 Save, Restore 
队列 及 同步 运算 Enqueue, Dequeue, MutexAcquire, MutexRelease 
控制 流 Merge, Switch, Enter, Leave, NextlIteration 


Session 是 用 户 使 用 TensorFlow 时 的 交互 式 接 口 。 用 户 可 以 通过 Session 
的 Extend 方 法 添加 新 的 节点 和 边 ， 用 以 创建 计算 图 ， 然 后 就 可 以 通过 
Session 的 Run 方 法 执行 计算 图 : 用 户 给 出 需要 计算 的 节点 ， 同 时 提供 输入 
数据 ，TensorFlow 就 会 自动 寻找 所 有 需要 计算 的 节点 并 按 依 赖 顺 序 执行 它 
们 。 对 绝 大 多 数 的 用 户 来 说 ， 他 们 只 会 创建 一 次 计算 图 ， 然 后 反复 地 执 
行 整 个 计算 图 或 是 其 中 的 一 部 分 子 图 (sub-graph) o 


在 大 多 数 运算 中 ， 计 算 图 会 被 反复 执行 多 次 ， 而 数据 也 就 是 tensor 并 
不 会 被 持续 保留 ， 只 是 在 计算 图 中 过 一 遍 。Variable 是 一 类 特殊 的 运算 操 
作 ， 它 可 以 将 一 些 需要 保留 的 tensor 储 存在 内 存 或 显存 中 ， 比 如 神经 网 络 
模型 中 的 系数 。 每 一 次 执行 计算 图 后 ，Variable 中 的 数据 tensor 将 会 被 保 
存 ， 同 时 在 计算 过 程 中 这 些 tensor 也 可 以 被 更 新 ， 比 如 神经 网 络 每 一 次 
mini-batch 训 练 时 ， 神 经 网 络 的 系数 将 会 被 更 新 并 保存 。 使 用 Variable， 可 
以 在 计算 图 中 实现 一 些 特殊 的 操作 ， 比 如 Assign、AssignAdd (+=) 或 
AssignMul (*=) 。 


1.2.2 ”实现 原理 


TensorFlow 有 一 个 重要 组 件 dient， 顾 名 思 义 ， 就 是 客户 端 ， 它 通过 
Session 的 接口 与 master 及 多 个 worker 相 连 。 其 中 每 一 个 worker 可 以 与 多 个 
硬件 设备 (device) 相连 ， 比 如 CPU 或 GPU ， 并 负责 管理 这 些 硬 件 。 而 
master 则 负责 指导 所 有 worker 按 流程 执行 计算 图 。TensorFlow 有 单机 模式 
和 分 布 式 模式 两 种 实现 ， 其 中 单机 指 client、master、worker 全 部 在 一 台 机 
器 上 的 同一 个 进程 中 ; 分 布 式 的 版 本 允许 client、master、worker 在 不 同 机 
器 的 不 同 进 程 中 ， 同 时 由 集群 调度 系统 统一 管理 各 项 任务 。 图 1-4 所 示 为 
单机 版 和 分 布 式 版 本 的 示例 图 。 
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1-4 ”TensorFlow 单 机 版 本 和 分 布 式 版 本 的 示例 


TensorFlow 中 每 一 个 worker 可 以 管理 多 个 设备 ， 每 一 个 设备 的 name 包 
含 硬 件 类 别 、 编 号 、 任 务 号 (单机 版 本 没有 ) ， 示 例如 下 。 


单机 模式 : /job:localhost/device:cpu:0 
分 布 式 模式 : /job:worker/task:17/device:gpu:3 


TensorFlow 为 CPU 和 GPU 提供 了 管理 设备 的 对 象 接口 ， 每 一 个 对 象 负 
责 分 配 、 释 放 设 备 的 内 存 ， 以 及 执行 节点 的 运算 核 。TensorFlow 中 的 
tensor 是 多 维 数组 ， 数 据 类 型 支持 8 位 至 64 位 的 int， 以 及 IEEE 标 准 的 
float、double 和 复数 型 ， 同 时 还 支持 任意 字符 串 。 每 一 个 设备 有 单独 的 
allocator 负 责 储 存 各 种 数据 类 型 的 tansor， 同 时 tensor 的 引用 次 数 也 会 被 记 
录 ， 当 引用 数 为 0 时 ， 内 存 将 被 释放 。 如 图 1-5 所 示 ，TensorFlow 支 持 的 设 
备 包 括 x86 架 构 CPU、 手 机 上 的 ARM CPU, GPU, TPU (Tensor 
Processing Unit，Google 专 门 为 大 规模 深度 学 习 计 算 定 制 的 必 片 ， 但 目前 
还 没有 公开 发 布 的 计划 ) ， 例如 AlphaGo 在 与 李 世 石 比赛 时 就 大 量 使 用 
了 TPU 集 群 的 计算 资源 。 


手机 GPU GPU 集群 
图 1-5 “TensorFlow 支 持 的 设备 


TPU TPU 集群 


图 1-5 “TensorFlow 支 持 的 设备 (4) 


在 只 有 一 个 硬件 设备 的 情况 下 ， 计 算 图 会 按 依赖 关系 被 顺序 执行 。 
当 一 个 节点 的 所 有 上 游 依赖 都 被 执行 完 时 (依赖 数 为 0) ， 这 个 节点 就 会 
被 加 入 ready queue 以 等 待 执行 。 同 时 ， 它 下 游 所 有 节点 的 依赖 数 减 1， 实 
际 上 这 就 是 标准 的 计算 拓扑 序 的 方式 。 当 有 多 个 设备 时 ， 情 况 就 变 得 复 
RT, RAL: 

(1) 每 一 个 节点 该 让 什么 硬件 设备 执行 。 

(2) 如 何 管理 节点 间 的 数据 通信 。 


对 第 1 个 问题 ，TensorFlow 设 计 了 一 套 为 节 和 点 分 配 设 备 的 策略 。 这 个 
策略 首先 需要 计算 一 个 代价 模型 ， 这 个 代价 模型 估算 每 一 个 节点 的 输 
入 、 输 出 tensor 的 大 小 ， 以 及 所 需要 的 计算 时 间 。 代 价 模型 一 部 分 由 人 工 
经 验 制定 的 启发 式 规则 得 到 ， 另 一 部 分 则 是 由 对 一 小 部 分 数据 进行 实际 
运算 而 测量 得 到 的 。 接 下 来 ， 分 配 策 略 会 模拟 执行 整个 计算 图 ， 首 先 会 
从 起 点 开始 ， 按 拓扑 序 执行 。 在 模拟 执行 一 个 节点 时 ， 会 把 每 一 个 能 执 
行 这 个 节 和 点 的 设备 都 测试 一 遍 ， 这 个 测试 会 考虑 代价 模型 对 这 个 节点 的 
计算 时 间 的 估算 ， 加 上 数据 传 到 这 个 设备 上 所 需要 的 通信 和 时间， 最 后 选 
择 一 个 综合 时 间 最 短 的 设备 作为 这 个 节 氮 的 运算 设备 。 可 以 看 到 这 个 策 
略 是 一 个 简单 的 贪 楚 策略 ， 它 不 能 确保 找到 全 局 最 优 解 ， 但 是 可 以 用 较 
快 的 速度 找到 一 个 不 错 的 节 和 点 运算 分 配方 案 。 同 时 除了 运行 时 间 ， 内 存 
的 最 高 使 用 峰值 也 会 被 考虑 进来 。 目 前 TensorFlow 的 节点 分 配 策 略 仍 在 不 
断 研发 、 优 化 ， 将 来 可 能 使 用 一 个 强化 学 习 (Reinforcement Learning) 的 
神经 网 络 来 辅助 决策 。 此 外 ，TensorFlow 还 允许 用 户 对 节点 的 分 配 设置 限 
制 条 件 ， 比 如 “只 给 这 个 节点 分 配 GPU 类 型 的 设备 ”，“ 只 给 这 个 节点 分 


配 /job:workervtask:17 上 的 设备 "， “XS 7 A ACH IR BY 201 Al variable13 
一 致 *"。 对 于 这 些 限 制 条 件 ，TensorFlow 会 先 计 算 每 个 节点 可 以 使 用 的 设 
备 ， 再 使 用 并 查 集 (union-find) 算法 找到 必须 使 用 同一 个 设备 的 节点 。 

我 们 再 来 看 第 2 个 问题 ， 当 给 节点 分 配 设备 的 方案 被 确定 ， 整 个 计算 
图 就 会 被 划分 为 许多 子 图 ， 使 用 同一 个 设备 并 且 相 邻 的 节点 会 被 划分 到 
同一 个 子 图 。 然 后 计算 图 中 从 x 到 y 的 边 ， 会 被 取代 为 一 个 发 送 端的 发 送 
节点 (sendnode) 、 一 个 接收 端的 接收 节点 (receive node) ， 以 及 从 发 
送 节点 到 接收 节点 的 边 ， 如 图 1-6 所 示 。 


图 1-6 ”TensorFlow 的 通信 和 机制 | 


这 样 就 把 数据 通信 的 问题 转变 为 发 送 节点 和 接收 节点 的 实现 问题 ， 
用 户 不 需要 为 不 同 的 硬件 环境 实现 通信 方法 。 同 时 两 个 子 图 之 间 可 能 会 
有 多 个 接收 节点 ， 如 果 这 些 接收 节点 接收 的 都 是 同一 个 tensor， 那 么 所 有 
这 些 接收 节点 会 被 自动 合并 为 一 个 ， 避 免 了 数据 的 反复 传输 或 者 重复 占 
用 设备 内 存 。 总 结 一 下 ，TensorFlow 的 通信 机 制 很 优秀 ， 发 送 节点 和 接收 
节点 的 设计 简化 了 底层 的 通信 模式 ， 用 户 无 须 设计 节点 之 间 的 通信 流 
程 ， 可 以 让 同一 套 人 代码， 自动 扩展 到 不 同 硬件 环境 并 处 理 复 杂 的 通信 流 
程 。 图 1-7 所 示 为 CPU 与 GPU 之 间 通 信 的 流程 。 


learning rate 


图 1-7 CPU 与 GPU 的 通信 过 程 


同时 ， 从 单机 单 设备 的 版 本 改造 为 单机 多 设备 的 版 本 也 非常 容易 ， 
下 面 的 代码 只 添加 了 加 粗 的 这 一 行 ， 就 实现 了 从 一 块 GPU 训 练 到 多 块 
GPU 训 练 的 改造 。 


for i in range(8): 
for d in range(4): 
with tf.device("/gpu:%d" % d): 
input = x[i] if d is 6 else m[d-1] 
m[d], c[d] = LSTMCell(input, mprev[d], cprev[d]) 
mprev[d] = m[d] 
cprev[d] = c[d] 


TensorFlow 分 布 式 执行 时 的 通信 和 单机 设备 间 的 通信 很 像 ， 只 不 过 是 
对 发 送 节 点 和 接收 节点 的 实现 不 同 : 比如 从 单机 的 CPU 到 GPU 的 通信 ， 
变 为 不 同 机 器 之 间 使 用 TCP 或 者 RDMA 传 输 数据 。 同 时 ， 容 错 性 也 是 分 布 
式 TensorFlow 的 一 个 特点 。 故 障 会 在 两 种 情况 下 被 检测 出 来 ， 一 种 是 信息 
从 发 送 节点 传输 到 接收 节点 失败 时 ， 另 一 种 是 周期 性 的 worker 心 跳 检 测 失 
败 时 。 当 一 个 故障 被 检测 到 时 ， 整 个 计算 图 会 被 终止 并 重启 。 其 中 
Variable node 可 以 被 持久 化 ，TensorFlow 支 持 检查 点 (checkpoint) 的 保存 
和 恢复 ， 每 一 个 Variable node 都 会 链接 一 个 Save node, FRI LE ARMA 
保存 一 次 数据 到 持久 化 的 储存 系统 ， 比 如 一 个 分 布 式 文件 系统 。 同 样 ， 
每 一 个 Variable node 都 会 连接 一 个 Restore node， 在 每 次 重启 时 会 被 调用 并 
恢复 数据 。 这 样 在 发 生 故 障 并 重启 后 ， 模 型 的 参数 将 得 以 保留 ， 训 练 将 
从 上 一 个 checkpoint 恢 复 而 不 需要 完全 从 头 再 来 。 


1-8 所 示 为 使 用 TensorFlow 在 GPU 集群 进行 分 布 式 训 练 的 性 能 对 比 
图 ， 在 GPU 数量 小 于 16 时 ， 基 本 没有 性 能 损耗 。 直 到 50 块 GPU 时 ， 依 然 
可 以 获得 80% 的 效率 ， 也 就 是 40 倍 于 单 GPU 的 提速 。 在 100 块 GPU 时 ， 最 
终 可 以 获得 56 倍 的 提速 ， 也 就 是 56% 的 使 用 效率 ， 可 以 看 到 TensorFlow 在 
大 规模 分 布 式 系统 上 有 相当 高 的 并 行 效率 。 


Training Inception with Distributed TensorFlow 


Speedup versus one GPU 


Numberof GPUs 


1-8 TensorFlow 分 布 式 训练 性 能 


1.2.3 ”拓展 功能 


在 深度 学 习 乃 至 机 器 学 习 中 ， 计 算 cost function 的 梯度 都 是 最 基本 的 
需求 ， 因 此 TensorFlow 也 原生 支持 自动 求 导 。 比 如 一 个 tensor C 在 计算 图 
中 有 一 组 依赖 的 tensor {X, } ， 那 么 在 TensorFlow 中 可 以 自动 求 出 {dC/dxX, } 
。 这 个 求解 梯度 的 过 程 也 是 通过 在 计算 图 拓展 节点 的 方式 实现 的 ， 只 不 
过 求 梯度 的 节点 对 用 户 是 透明 的 。 

如 图 1-9 所 示 ， 当 TensorFlow 计 算 一 个 tensor C X F tensor I 的 梯度 
时 ， 会 先 寻 找 从 I 到 C 的 正 向 路 径 ， 然 后 从 C 回溯 到 I ， 对 这 条 回溯 路 径 
上 的 每 一 个 节点 增加 一 个 对 应 求解 梯度 的 节点 ， 并 根据 链 式 法 则 (chain 
rule) 计算 总 的 梯度 ， 这 就 是 大 名 见 见 的 反 向 传播 (back propagation, 
BP) 算法 。 这 些 新 增 的 节点 会 计算 梯度 函数 (gradient function) ， 比 如 
[db,dW,dx] = tf.gradients(C,[b,W,x])o 


ES 
dReLU 
dAdd 


1-9 TensorFlow 自 动 求 导 示 例 


自动 求 导 虽然 对 用 户 很 方便 ， 但 伴随 而 来 的 是 TensorFlow 对 计算 的 优 
化 (比如 为 节点 分 配 设备 的 策略 ) 变 得 很 麻烦 ， 尤 其 是 内 存 使 用 的 问 
题 。 在 正 向 执行 计算 图 ， 也 就 是 进行 推断 (inference) 时 ， 因 为 确定 了 执 
行 顺 序 ， 使 用 经 验 的 规则 是 比较 容易 取得 好 效果 的 ，tensor 在 产生 后 会 迅 
速 地 被 后 续 节 点 使 用 掉 ， 不 会 持续 占用 内 存 。 然 而 在 进行 反 向 传播 计算 
梯度 时 ， 经 常 需要 用 到 计算 图 开头 的 tensor， 这 些 tensor 可 能 会 占用 大 量 
的 GPU 显存 ， 也 限制 了 模型 的 规模 。 目 前 TensorFlow 仍 在 持续 改进 这 些 问 
题 ， 包 括 使 用 更 好 的 优化 方法 ; 重新 计算 tensor， 而 不 是 保存 tensor; 将 
tensor 从 GPU 显存 移 到 CPU 控制 的 主 内 存 中 。 


TensorFlow 还 支持 单独 执行 子 图 ， 用 户 可 以 选择 计算 图 的 任意 子 图 ， 
沿 某 些 边 输入 数据 ， 同 时 从 另 一 些 边 获取 输出 结果 。TensorFlow 用 节点 
名 加 port 的 形式 指定 数据 ， 例 如 bar:0 表 示 名 为 bar 的 节点 的 第 1 个 输出 。 在 
调用 Session 的 Run 方 法 执行 子 图 时 ， 用 户 可 以 选择 一 组 输入 数据 的 映射 ， 
比 如 name:port -> tensor; 同时 用 户 必须 指定 一 组 输出 数据 ， 比 如 
name[:port]， 来 选择 执行 哪些 节点 ， 如 果 port 也 被 选择 ， 那 么 这 些 port 输 
出 的 数据 将 会 作为 Run 函 数 调用 的 结果 返回 。 然 后 整个 计算 图 会 根据 输入 
和 输出 进行 调整 ， 输 入 数据 的 节点 会 连接 一 个 feed node， 输 出 数据 的 节 
点 会 连接 一 个 fetch node。 TensorFlow 会 根据 输出 数据 自动 推导 出 哪些 节 
点 需要 被 执行 。 如 图 1-10 所 示 ， 我 们 选择 用 一 些 数据 替换 掉 b ， 那 么 feed 
node 会 替代 b 连接 到 c 。 同 时 ， 我 们 只 需要 获取 f:0 的 结果 ， 所 以 一 个 fetch 
node 便 会 连接 到 f， 这 样 d 和 e 就 不 会 被 执行 ， 所 以 最 终 需 要 执行 的 节点 
便 只 有 a、 C Alf o 


fetch 
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1-10 ”TensorFlow 子 图 的 执行 示例 


TensorFlow 支 持 计算 图 的 控制 流 ， 比 如 if-condition 和 while-loop， 因 为 
大 部 分 机 器 学 习 算 法 需要 反复 迭代 ， 所 以 这 个 功能 非常 重要 。TensorFlow 
提供 Switch 和 Merge 两 种 operator， 可 以 根据 某 个 布尔 值 跳 过 某 段 子 图 ， 然 
后 把 两 段子 图 的 结果 合并 ， 实 现 if-else 的 功能 。 同 时 还 提供 了 Enter、 


Leave 和 NextIteration 用 来 实现 循环 和 迭代 。 在 使 用 高 阶 语言 (比如 
Python) 的 if-else、while、for 控 制 计算 流程 时 ， 这 些 控制 流 会 被 自动 编译 
为 上 述 那 些 operator， 方便 了 用 户 。Loop 中 的 每 一 次 循环 会 有 唯一 的 tag， 
它 的 执行 结果 会 输出 成 frame， 这 样 用 户 可 以 方便 地 查询 结果 日 志 。 同 
时 ，TensorFlow 的 控制 流 支持 分 布 式 ， 每 一 轮 循环 中 的 节点 可 能 分 布 在 不 
同 机 器 的 不 同 设备 上 。 分 布 式 控制 流 的 实现 方式 也 是 依靠 计算 图 的 改 
写 ， 循 环 内 的 节点 会 被 划分 到 不 同 的 小 的 子 图 ， 每 一 个 子 图 会 连接 控制 
节点 ， 实 现 自己 的 循环 ， 同 时 将 循环 终止 等 信号 发 送 到 其 他 子 图 。 同 
时 ， 控 制 流 也 提供 了 对 计算 图 中 隐 含 的 梯度 计算 节点 的 支持 ，TensorFlow 
会 将 控制 流 中 的 自动 求 导 功能 隐藏 到 底层 ， 用 户 不 需要 考虑 这 部 分 功能 
的 逻辑 设计 。 

TensorFlow 的 数据 输入 除了 通过 feed node， 也 有 特殊 的 input node 可 
以 让 用 户 直接 输入 文件 系统 的 路 径 ， 例 如 一 个 Google Cloud Platform 的 文 
件 路 径 。 如 果 从 feed node 输 入 数据 ， 那 么 数据 必须 从 dlient 读 取 ， 并 通过 
网 络 传 到 分 布 式 系统 的 其 他 节点 ， 这 样 会 有 较 大 的 网 络 开 销 ， 直 接 使 用 
文件 路 径 ， 可 以 让 worker 节 点 读 取 本 地 的 文件 ， 提 高 效率 。 


队列 (queue) 也 是 TensorFlow 任 务 调度 的 一 个 重要 特性 ， 这 个 特性 
可 以 让 计算 图 的 不 同 节点 异步 地 执行 。 使 用 队列 的 一 个 目的 是 当 一 个 
batch 的 数据 运算 时 ， 提 前 从 磁盘 读 取 下 一 个 batch 的 数据 ， 减 少 磁盘 IO 阻 
塞 时 间 。 同 时 还 可 以 异步 地 计算 许多 梯度 ， 再 组 合成 一 个 更 复杂 的 整体 
梯度 。 除 了 传统 的 先进 先 出 (FIFO) 队列 ，TensorFlow 还 实现 了 洗 牌 队 
Ji) (shuffling queue) ， 用 以 满足 某 些 机 器 学 习 算法 对 随机 性 的 要 求 ， 这 
对 于 损失 函数 优化 或 者 模型 收 仇 会 有 帮助 。 


容器 (Container) 是 TensorFlow 中 一 种 特殊 的 管理 长 期 变量 的 机 制 |， 
例如 Variable 对 象 就 储存 在 容器 中 。 每 一 个 进程 会 有 一 个 默认 的 容器 一 直 
存在 ， 直 到 进程 结束 。 使 用 容器 甚至 可 以 允许 不 同 计算 图 的 不 同 Session 
之 间 共 享 一 些 状态 值 。 


1.2.4 ”性 能 优化 


在 TensorFlow 中 有 很 多 高 度 抽象 的 运算 操作 ， 这 些 运算 操作 可 能 是 由 
很 多 层 复杂 的 计算 组 合 而 成 的 ， 当 有 多 个 高 阶 运算 操作 同时 存在 时 ， 它 
们 的 前 几 层 可 能 是 完全 一 致 的 重复 计算 (输入 及 运算 内 容 均 一 致 ) 。 这 
时 ，TensorFlow 会 自动 识别 这 些 重复 计算 ， 同 时 改写 计算 图 ， 只 执行 一 次 
重复 的 计算 ， 然 后 把 这 几 个 高 阶 运算 操作 后 续 的 计算 连接 到 这 些 共 有 的 
TRE, HEARTS. 


同时 ,巧妙 地 安排 运算 的 顺序 也 可 以 极 大 地 改善 数据 传输 和 内 存 占 
用 的 问题 。 比 如 适当 调整 顺序 以 错开 某 些 数据 同时 存在 于 内 存 的 时 间 ， 
对 于 显存 容量 比较 小 的 GPU 来 说 至 关 重 要 。TensorFlow 也 会 精细 地 安排 接 
收 节点 的 执行 时 间 ， 如 果 接 收 节点 过 早 地 接收 数据 ， 那 么 数据 会 堆积 在 
设备 的 内 存 中 ， 所 以 TensorFlow 设 计 了 策略 让 接收 节点 在 刚好 需要 数据 来 
计算 时 才 开 始 接收 数据 。 


TensorFlow 也 提供 异步 计算 的 支持 ， 这 样 线程 执行 时 就 无 须 一 直 等 待 
某 个 节点 计算 完成 。 有 一 些 节 点 ， 比 如 receive、enqueue、dequeue 就 是 异 
步 的 实现 ， 这 些 节点 不 必 因 等 待 O 而 阻塞 一 个 线程 继续 执行 其 他 任务 。 

TensorFlow 同 时 支持 几 种 高 度 优化 的 第 三 方 计算 库 。 

线性 代数 计算 库 : 

- Eigen’ 

FERIA: 

- BLAS‘ 


- cuBLAS (CUDA BLAS)’ 
深度 学 习 计算 库 : 

- cuda-convnet® 

- cuDNN’ 


很 多 机 器 学 习 算 法 在 数字 精度 较 低 时 依然 可 以 正常 工作 ，TensorFlow 
也 支持 对 数据 进行 压缩 。 比 如 将 32-bit 浮 点 数 有 损 地 压缩 为 16-bit 浮 点 数 ， 
这 样 做 可 以 降低 在 不 同 机 器 、 不 同 设备 之 间 传 输 数 据 时 的 网 络 开 销 ， 提 
高 数据 通信 效率 。 

TensorFlow 提 供 了 三 种 不 同 的 加 速 神经 网 络 训练 的 并 行 计算 模式 。 


(1) 数据 并 行 : 通过 将 一 个 mini-batch 的 数据 放 在 不 同 设备 上 计算 ， 
实现 梯度 计算 的 并 行 化 。 例 如 ， 将 有 1000 条 样本 的 mini-batch 拆 分 成 10 份 
100 条 样本 的 数据 并 行 计算 ， 完 成 后 将 10 份 梯度 数据 合并 得 到 最 终 梯度 并 
更 新 到 共享 的 参数 服务 器 (parameter server) 。 这 样 的 操作 会 产生 许多 完 
全 一 样 的 子 图 的 副本 ， 在 dient 上 可 以 用 一 个 线程 同步 控制 这 些 副 本 运算 
的 循环 。TensorFlow 中 的 数据 并 行 如 图 1-11 所 示 。 


ES 


Asynchronous Data Parallelism 


1-11 TensorFlow 中 的 数据 并 行 


上 述 这 个 操作 还 可 以 改 成 异步 的 ， 使 用 多 个 线程 控制 梯度 计算 ， 每 
一 个 线程 计算 完 后 异步 地 更 新 模型 参数 。 同 步 的 方式 相当 于 用 了 一 个 较 
大 的 mini-batch (当然 其 中 的 批 标准 化 (batch normalization) 还 是 独立 
的 ) ， 其 优点 是 没有 梯度 和 干扰， 缺点 是 容错 性 差 ， 一 台 机 器 出 现 问题 后 
可 能 需要 重 跑 。 异 步 的 方式 的 优点 是 有 一 定 的 容错 性 ， 但 是 因为 梯度 干 
扰 的 问题 ， 导 致 每 一 组 梯度 的 利用 效率 都 下 降 了 。 另 外 一 种 就 是 混合 
式 ， 比 如 两 组 异步 的 ， 其 中 每 组 有 50 份 同步 的 训练 。 从 图 1-12 中 可 以 看 
到 ， 一 般 来 说 ， 同 步 训练 的 模型 精度 较 好 。 


0.795 


m= async50 
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sync50+2 
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图 1-12 ”数据 并 行 中 同步 、 异 步 训 练 的 性 能 对 比 


1-13 所 示 为 使 用 10 块 GPU 和 50 块 GPU 训练 inception 时 的 对 比 图 ， 要 
达到 相同 的 精度 ，50 块 GPU 需要 的 时 间 只 是 10 块 的 /4 左右 。 


50 replicas 
10 replicas 


19.6 vs. 80.3 (4.1X) 
5.6 vs. 21.8 (3.9X) 


Hours 
图 1-13 10 快 GPU 和 50 块 GPU 的 训练 效率 对 比 


相 比 于 模型 并 行 ， 数 据 并 行 的 计算 性 能 损耗 非常 小 ， 尤 其 是 对 于 
sparse 的 model。 因 为 不 同 mini-batch 之 间 干 扰 的 概率 很 小 ， 所 以 经 常 可 以 
同时 进行 很 多 份 (replicas) 数据 并 行 ， 甚 至 可 高 达 上 千 份 。 表 1-3 所 示 为 
Google 的 各 个 项 目 中 使 用 的 数据 并 行 的 份 数 或 者 GPU 数目 。 


表 1-3 Google 使 用 数据 并 行 的 项 目 


RankBrain 500 份 数据 并 行 
ImageNet Inception Model 50 块 GPU, 40 倍 提速 
SmartReply 16 份 数据 并 行 ， 每 一 份 包含 多 块 GPU 


Language model on “One Billion Word” 32 Lk GPU 


(2) 模型 并 行 : 将 计算 图 的 不 同 部 分 放 在 不 同 的 设备 上 运算 ， 可 以 
实现 简单 的 模型 并 行 ， 其 目标 在 于 减少 每 一 轮训 练 迭 代 的 时 间 ， 不 同 于 
数据 并 行 同时 进行 多 份 数据 的 训练 。 模 型 并 行 需要 模型 本 身 有 大 量 可 以 
并 行 ， 且 互相 不 依赖 或 者 依赖 程度 不 高 的 子 图 。 在 不 同 的 硬件 环境 上 性 
能 损耗 不 同 ， 比 如 在 单 核 的 CPU 上 使 用 SIMD 是 没有 额外 开销 的 ， 在 多 核 
CPU 上 使 用 多 线程 也 基本 上 没有 额外 开销 ， 在 多 GPU 上 的 限制 主要 在 
PCIe 的 带宽 ， 在 多 机 之 间 的 限制 则 主要 在 网 络 开销 。TensorFlow 中 的 模型 
并 行 如 图 1-14 所 示 。 


图 1-14 TensorFlow# 二 


(3) 流水 线 并 行 : 和 异步 的 数据 并 行 很 像 ， 只 不 过 是 在 同一 个 硬件 
设备 上 实现 并 行 。 大 致 思路 是 将 计算 做 成 流水 线 ， 在 一 个 设备 上 连续 地 
并 行 执 行 ， 提 高 设备 的 利用 率 ， 如 图 1-15 所 示 。 
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图 1 15 ”TensorFlow 中 的 流水 线 并 行 

未 来 ，TensorFlow 会 支持 把 任意 子 图 独立 出 来 ， 封 装 成 一 个 图 数 ， 并 

让 不 同 的 前 端 语 言 (比如 Python 或 者 C++) 来 调用 。 这 样 将 设计 好 的 子 图 

发 布 在 开源 社区 中 ， 大 家 的 工作 就 可 以 方便 地 被 分 享 了 。TensorFlow 也 计 

划 推 出 优化 计算 图 执行 的 just-in-time 编 译 器 (目前 在 TensorFlow 1.0.0-rc0 

中 已 有 试验 性 的 XLA 组 件 ， 可 提供 JIT 及 AOT 编 译 优 化 ) ， 期 望 可 以 自动 

推断 出 tensor 的 类 型 、 大 小 ， 并 自动 生成 一 条 高 度 优 化 过 的 流水 线 。 同 

时 ，TensorFlow 还 会 持续 优化 为 运算 节点 分 配 硬 件 设 备 的 策略 ， 以 及 节点 
执行 排序 的 策略 。 


2 TensorFlow 和 其 他 深度 学 习 框 架 的 
对 比 


2.1 ”主流 深度 学 习 框 案 对 比 


深度 学 习 研 究 的 热潮 持续 高 涨 ， 各 种 开源 深度 学 习 框 架 也 层 出 不 
穷 ， 其 中 包括 TensorFlow 、 Caffes 、 Keras? 、 CNTK™ 、 Torch7" 、 
MXNet? , Leaf , Theano“, DeepLearning4" , Lasagne, Neon” , & 
等 。 然 而 TensorFlow 却 杀 出 重围 ， 在 关注 度 和 用 户 数 上 都 占据 绝对 优势 ， 
大 有 一 统 江 湖 之 势 。 表 2-1 所 示 为 各 个 开源 框架 在 GitHub 上 的 数据 统计 

(数据 统计 于 2017 年 1 月 3 日 ) ， 可 以 看 到 TensorFlow 在 star 数 量 、fork 数 
量 、contributor 数 量 这 三 个 数据 上 都 完胜 其 他 对 手 。 究 其 原因 ， 主 要 是 
Google 在 业界 的 号 召 力 确实 强大 ， 之 前 也 有 许多 成 功 的 开源 项 目 ， 以 及 
Google} KAA LS BERRA IKE, ABILA RAW Google AiR EF >) HEART 
满 信 心 ， 以 至 于 TensorFlow 在 2015 年 11 月 刚 开 源 的 第 一 个 月 就 积累 了 
10000+ 的 star。 其 次 ，TensorFlow 确 实在 很 多 方面 拥有 优异 的 表现 ， 比 如 
设计 神经 网 络 结构 的 代码 的 简洁 度 ， 分 布 式 深度 学 习 算 法 的 执行 效率 ， 
还 有 部 署 的 便利 性 ， 都 是 其 得 以 胜出 的 亮点 。 如 果 一 直 关 注 着 TensorFlow 
的 开发 进度 ， 就 会 发 现 基本 上 每 星期 TensorFlow 都 会 有 1 万 行 以 上 的 代码 
更 新 ， 多 则 数 万 行 。 产 品 本 身 优异 的 质量 、 快 速 的 迭代 更 新 、 活 路 的 社 
区 和 积极 的 反馈 ， 形 成 了 良性 循环 ， 可 以 想见 TensorFlow 未 来 将 继续 在 各 
种 深度 学 习 框 架 中 独占 鳌头 。 


表 2-1 各 个 开源 框架 在 GitHub 上 的 数据 统计 


«2 | na Canibus 
TensorFlow Google Python/C++/Go/... 41628 19339 568 


Caffe BVLC C++/Python 14956 9282 221 
Keras fchollet 322 
CNTK Microsoft 100 
Torch7 Facebook La | 784 | 113 
Theano U. Montreal 271 


Deeplearning4J DeepLearning4J Java/Scala 101 


Leaf AutumnAI Rust 14 


Lasagne Lasagne Python Pp) 


Neon NervanaSystems Python 52 


观察 表 2-1 还 可 以 发 现 ，Google、 Microsoft, FacebookS BARES 

这 场 深度 学 习 框 架 大 战 ， 此 外 ， 还 有 毕业 于 伯克利 大 学 的 贾 扬 清 主 导 
ia 蒙特 利 尔 大 学 Lisa Lab 团 队 开发 的 Theano， 以 及 其 他 个 人 或 
商业 组 织 贡献 的 框架 。 另 外 ， 可 以 看 到 各 大 主流 框架 基本 都 支持 Python， 
目前 Python 在 科学 计算 和 数据 挖掘 领域 可 以 说 是 独 领 风骚 。 虽 然 有 来 自 
R, Julia 等 语言 的 竞争 压力 ， 但 是 Python 的 各 种 库 实在 是 太 完 善 了 ，Web 
jee RA AC. SPE, HORRE, MRSA, A— 

完美 的 生态 环境 。 仅 在 数据 挖 据 工具 链 上 ，Python 就 有 NumPy、 
a Pandas、Scikit-learn、XGBoost 等 组 件 ， 做 数据 采集 和 预 处 理 都 非 
常 方便 ， 并 且 之 后 的 模型 训练 阶段 可 以 和 TensorFlow 等 基于 Python 的 深度 
学 习 框 架 完美 衔接 。 


表 2-2 和 图 2-1 所 示 为 对 主流 的 深度 学 习 框 架 TensorFlow、 Caffe, 
CNTK、Theano、Torch 在 各 个 维度 的 评分 ， 本 书 2.2 节 会 对 各 个 深度 学 习 
框架 进行 比较 详细 的 介绍 。 


表 2-2 ”主流 深度 学 习 框 染 在 各 个 维度 的 评分 


TT ma | Eewa 


Theano 


a 


模型 设计 mK wm Be 性 能 ”架构 设计 一 一 总 体 评分 


图 2-1 主流 深度 学 习 框 架 对 比 图 


2.2 ”各 深度 学 习 框 架 简介 


在 本 节 ， 我 们 先 来 看 看 目前 各 流行 框架 的 异同 ， 以 及 各 自 的 特点 和 
优势 。 


2.2.1 TensorFlow 


TensorFlow 是 相对 高 阶 的 机 器 学 习 库 ， 用 户 可 以 方便 地 用 它 设计 神经 
网 络 结构 ， 而 不 必 为 了 追求 高 效率 的 实现 亲自 写 C++ 或 CUDA 代码 。 它 
和 Theano 志 样 都 支持 自动 求 导 ， 用 户 不 需要 再 通过 反 向 传播 求解 梯度 。 
其 核心 代码 和 Catffe 一 样 是 用 C++ 编写 的 ， 使 用 C++ 简化 了 线 上 部 署 的 复杂 
度 ， 并 让 手机 这 种 内 存 和 CPU 资源 都 紧张 的 设备 可 以 运行 复杂 模型 


\Python 则 会 比较 消耗 资源 ， 并 且 执 行 效 率 不 高 ) 。 除 了 核心 代码 的 

C++ 接口 ，TensorFlow 还 有 官方 的 Python、Go 和 Java 接 口 ， 是 通过 SWIG 
(Simplified Wrapper and Interface Generator) 实现 的 ， 这 样 用 户 就 可 以 在 
一 个 硬件 配置 较 好 的 机 器 中 用 Python 进 行 实验 ， 并 在 资源 比较 紧张 的 髋 入 
式 环境 或 需要 低 延 迟 的 环境 中 用 C++ 部 署 模型 。SWIG 支 持 给 C/C++ 代 码 
提供 各 种 语言 的 接口 ， 因 此 其 他 脚本 语言 的 接口 未 来 也 可 以 通过 SWIG 方 
便 地 添加 。 不 过 使 用 Python 时 有 一 个 影响 效率 的 问题 是 ， 每 一 个 mini- 
batch 要 从 Python 中 feed 到 网 络 中 ， 这 个 过 程 在 mini-batch 的 数据 量 很 小 或 
者 运算 时 间 很 短 时 ， 可 能 会 带 来 影响 比较 大 的 延迟 。 现 在 TensorFlow 还 有 
非 官方 的 Julia、Node.js、R 的 接口 支持 ， 地 址 如 下 。 


Julia: github.com/malmaud/TensorFlow.jl 
Node.js: github.com/node-tensorflow/node-tensorflow 
R: github.com/rstudio/tensorflow 


TensorFlow 也 有 内 置 的 TF.Learn 和 TF.Slim 等 上 层 组 件 可 以 帮助 快速 地 
设计 新 网 络 ， 并 且 兼 容 Scikit-learn estimator 接 口 ， 可 以 方便 地 实现 
evaluate、 grid search、 cross validation 等 功能 。 同 时 TensorFlow 不 只 局 限于 
神经 网 络 ， 其 数据 流 式 图 支持 非常 自由 的 算法 表达 ， 当 然 也 可 以 轻松 实 
现 深度 学 习 以 外 的 机 器 学 习 算法 。 事 实 上 ， 只 要 可 以 将 计算 表示 成 计算 
的 形式 ， 就 可 以 使 用 TensorFlow。 用 户 可 以 写 内 层 循环 代码 控制 计算 图 
分 支 的 计算 ，TensorFlow 会 自动 将 相关 的 分 支 转 为 子 图 并 执行 迭代 运算 。 
TensorFlow 也 可 以 将 计算 图 中 的 各 个 节点 分 配 到 不 同 的 设备 执行 ， 充 分 利 
用 硬件 资源 。 定 义 新 的 节点 只 需要 瑟 一 个 Python 遂 数 ， 如 果 没 有 对 应 的 底 
层 运算 核 ， 那 么 可 能 需要 写 C++ 或 者 CUDA 代 码 实现 运算 操作 。 


在 数据 并 行 模 式 上 ，TensorFlow 和 Parameter Server 很 像 ， 但 
TensorFlow 有 独立 的 Variable node， 不 像 其 他 框架 有 一 个 全 局 统一 的 参数 
服务 器 ， 因 此 参数 同步 更 自由 。TensorFlow 和 Spark 的 核心 都 是 一 个 数据 
计算 的 流 式 图 ，Spark 面 向 的 是 大 规模 的 数据 ， 支 持 SQL 等 操作 ， 而 
TensorFlow 主 要 面向 内 存 足 以 装载 模型 参数 的 环境 ， 这 样 可 以 最 大 化 计算 
效率 。 


TensorFlow 的 另外 一 个 重要 特点 是 它 灵 活 的 移植 性 ， 可 以 将 同一 份 代 
码 几 乎 不 经 过 修改 就 轻松 地 部 署 到 有 任意 数量 CPU 或 GPU 的 PC、 服 务 器 
或 者 移动 设备 上 。 相 比 于 Theano，TensorFlow 还 有 一 个 优势 就 是 它 极 快 的 
编译 速度 ， 在 定义 新 网 络 结构 时 ，Theano 通 常 需要 长 时 间 的 编译 ， 因 此 


尝试 新 模型 需要 比较 大 的 代价 ， 而 TensorFlow 完 全 没有 这 个 问题 。 
TensorFlow 还 有 功能 强大 的 可 视 化 组 件 TensorBoard， 能 可 视 化 网 络 结构 
和 训练 过 程 ， 对 于 观察 复杂 的 网 络 结 构 和 监控 长 时 间 、 大 规模 的 训练 很 
有 帮助 。TensorFlow 针 对 生产 环境 高 度 优 化 ， 它 产品 级 的 高 质量 代码 和 设 
计 都 可 以 保证 在 生产 环境 中 稳定 运行 ， 同 时 一 旦 TensorFlow 广 泛 地 被 工业 
界 使 用 ， 将 产生 民 性 循环 ， 成 为 深度 学 习 领 域 的 事实 标准 。 


除了 支持 常见 的 网 络 结构 [ 卷 积 神经 网 络 (Convolutional Neural 
Network, CNN) 、 循 环 神经 网 络 (Recurent Neural Network, RNN) ] 
外 ，TensorFlow 还 支持 深度 强化 学 习 乃 至 其 他 计算 密集 的 科学 计算 (如 偏 
微分 方程 求解 等 ) 。TensorFlow 此 前 不 支持 symbolic loop ， 需 要 使 用 
Python 循环 而 无 法 进行 图 编译 优化 ， 但 最 近 新 加 入 的 XLA 已 经 开始 支持 
JIT 和 AOT， 另 外 它 使 用 bucketing trick 也 可 以 比较 高 效 地 实现 循环 神经 网 
络 。TensorFlow 的 一 个 薄弱 地 方 可 能 在 于 计算 图 必须 构建 为 静态 图 ， 这 让 
很 多 计算 变 得 难以 实现 ， 尤 其 是 序列 预测 中 经 常 使 用 的 beam search。 


TensorFlow 的 用 户 能 够 将 训练 好 的 模型 方便 地 部 署 到 多 种 硬件 、 操 作 
系统 平台 上 ， 支 持 Intel 和 AMD 的 CPU ， 通 过 CUDA 支 持 NVIDIA 的 GPU 
(最 近 也 开始 通过 OpenCL 支 持 AMD 的 GPU， 但 没有 CUDA 成 熟 ) ， 支 持 
Linux 和 Mac， 最 近 在 0.12 版 本 中 也 开始 尝试 支持 Windows。 在 工业 生产 环 
境 中 ， 硬 件 设备 有 些 是 最 新 款 的 ， 有 些 是 用 了 几 年 的 老 机 型 ， 来 源 可 能 
比较 复杂 ，TensorFlow 的 异 构 性 让 它 能 够 全 面 地 支持 各 种 硬件 和 操作 系 
统 。 同 时 ， 其 在 CPU 上 的 矩阵 运算 库 使 用 了 Eigen 而 不 是 BLAS 库 ， 能 够 基 
于 ARM 架 构 编译 和 优化 ， 因 此 在 移动 设备 (Android 和 iOS) 上 表现 得 很 
好 。 


TensorFlow 在 最 开始 发 布 时 只 支持 单机 ， 而 且 只 支持 CUDA 6.5 和 
cuDNN v2， 并 且 没 有 官方 和 其 他 深度 学 习 框 架 的 对 比 结 果 。 在 2015 年 年 
底 ， 许 多 其 他 框架 做 了 各 种 性 能 对 比 评测 ， 每 次 TensorFlow 都 会 作为 较 差 
的 对 照 组 出 现 。 那 个 时 期 的 TensorFlow 真 的 不 快 ， 性 能 上 仅 和 普遍 认为 很 
慢 的 Theano 比 肩 ， 在 各 个 框架 中 可 以 算是 垫底 。 但 是 凭借 Google 强 大 的 
开发 实力 ， 很 快 支持 了 新 版 的 cuDNN (目前 支持 cuDNN v5.1) ， 在 单 
GPU E AY TE fe E E T Ë t fe RR. R23 PRM A 
https://github.com/soumith/convnet-benchmarks 给 出 的 各 个 框架 在 AlexNet 上 
单 GPU 的 性 能 评测 。 


表 2-3 ”各 深度 学 习 框 架 在 AlexNet 上 的 性 能 对 比 


Library (Æ) Class (%) 总 时 间 (ms) | 前 馈 时 间 (ms) | 反馈 时 间 (ms) 
CuDNN[R4]-fp16 (Torch) [owdinn SpatielConvelution 71 25 46 
Nervana-neon-fp16 ConvLayer 52 
CuDNN[R4]-fp32 (Torch) | cudnn.SpatialConvolution | E | 27 53 
TensorFlow conv2d 55 
Nervana-neon-fp32 ConvLayer 87 28 58 
fbfft (Torch) fonn.SpatialConvolution 104 31 72 
Chainer Convolution2D 177 40 136 
cudaconvnet2* | ConvLayer 177 42 135 
CuDNN[R2] * cudnn.SpatialConvolution 161 
Caffe (native) ConvolutionLayer 121 203 
Torch-7 (native) SpatialConvolutionMM 210 
CL-nn (Torch) | SpatialConvolutionMM 963 388 574 
Caffe-CLGreenTea ConvolutionLayer 1442 210 1232 


目前 在 单 GPU 的 条 件 下 ， 绝 大 多 数 深 度 学 习 框 架 都 依赖 于 cuDNN， 
因此 只 要 硬件 计算 能 力 或 者 内 存 分 配 差异 不 大 ， 最 终 训练 速度 不 会 相差 
太 大 。 但 是 对 于 大 规模 深度 学 习 来 说 ， 巨 大 的 数据 量 使 得 单机 很 难 在 有 
限 的 时 间 完 成 训练 。 这 时 需要 分 布 式 计算 使 GPU 集 群 乃 至 TPU 集 群 并 行 
计算 ， 共 同 训练 出 一 个 模型 ， 所 以 框架 的 分 布 式 性 能 是 至 关 重 要 的 。 
TensorFlow 在 2016 年 4 月 开源 了 分 布 式 版 本 ， 使 用 16 块 GPU 可 达 单 GPU 的 
15 倍 提速 ， 在 50 块 GPU 时 可 达到 40 倍 提速 ， 分 布 式 的 效率 很 高 。 目 前 原 
生 支 持 的 分 布 式 深 度 学 习 框 架 不 多 ， 只 有 TensorFlow、CNTK 、 
DeepLearning4J、MXNet 等 。 不 过 目前 TensorFlow 的 设计 对 不 同 设备 间 的 
通信 优化 得 不 是 很 好 ， 其 单机 的 reduction 只 能 用 CPU 处 理 ， 分 布 式 的 通信 
使 用 基于 socket 的 RPC， 而 不 是 速度 更 快 的 RDMA， 所 以 其 分 布 式 性 能 5 
能 还 没有 达到 最 优 。 

Google 在 2016 年 2 月 开源 了 TensorFlow Serving” ， 这 个 组 件 可 以 将 
TensorFlow 训练 好 的 模型 导出 ， 并 部 署 成 可 以 对 外 提供 预测 服务 的 
RESTful 接 口 ， 如 图 2-2 所 示 。 有 了 这 个 组 件 ，TensorFlow 就 可 以 实现 应 用 
机 器 学 习 的 全 流程 : 从 训练 模型 、 调 试 参 数 ， 到 打包 模型 ， 最 后 部 署 服 
务 ， 名 副 其 实 是 一 个 从 研究 到 生产 整 条 流水 线 都 齐备 的 框架 。 这 里 引用 
TensorFlow 内 部 开发 人 员 的 描述 : “TensorFlow Serving 是 一 个 为 生产 环境 
而 设计 的 高 性 能 的 机 器 学 习 服务 系统 。 它 可 以 同时 运行 多 个 大 规模 深度 
学 习 模型 ， 支 持 模型 生命 周期 管理 、 算 法 实验 ， 并 可 以 高 效 地 利用 GPU 


资源 ， 让 TensorFlow 训 | 练 好 的 模型 更 快捷 方便 地 投入 到 实际 生产 环境 ”。 
除了 TensorFlow 以 外 的 其 他 框 染 都 缺少 为 生产 环境 部 署 的 考虑 ， 而 Google 
作为 广泛 在 实际 产品 中 应 用 深度 学 习 的 巨头 可 能 也 意识 到 了 这 个 机 会 ， 
因此 开发 了 这 个 部 署 服务 的 平台 。TensorFlow Serving 可 以 说 是 一 副 王 
牌 ， 将 会 帮 TensorFlow 成 为 行业 标准 做 出 巨大 贡献 。 
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图 2-2 TensorFlow Serving 架 构 


TensorBoard 是 TensorFlow 的 一 组 Web 应 用 ， 用 来 监控 TensorFlow 运 行 
过 程 ， 或 可 视 化 Computation Grapho TensorBoard 目 前 支持 5 种 可 视 化 : 标 
= (scalars) 、 图 片 (images) 、 音 频 (audio) 、 直 方 图 (histograms) 
和 计算 图 (Computation Graph) 。 TensorBoard 的 Events Dashboard 可 以 用 
来 持续 地 监控 运行 时 的 关键 指标 ， 比 如 loss、 学 习 速 率 (learning rate) 或 
是 验证 集 上 的 准确 率 (accuracy) ; Image Dashboard 则 可 以 展示 训练 过 程 
中 用 户 设 定 保存 的 图 片 ， 比 如 某 个 训练 中 间 结 果 用 Matplotlib 等 绘制 

(plot) 出 来 的 图 片 ; Graph Explorer 则 可 以 完全 展示 一 个 TensorFlow 的 计 
算 图 ， 并 且 支 持 缩 放 拖 岛 和 查看 节点 属性 。TensorBoard 的 可 视 化 效果 如 
图 2-3 和 图 2-4 所 示 。 
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图 2-3 ”TensorBoard 的 loss 标 量 的 可 视 化 
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图 2-4 ”TensorBoard 的 模型 结构 可 视 化 


TensorFlow 拥 有 产品 级 的 高 质量 代码 ， 有 Google 强 大 的 开发 、 维 护 能 
力 的 加 持 ， 整 体 架 构 设 计 也 非常 优秀 。 相 比 于 同样 基于 Python 的 老牌 对 手 


Theano，TensorFlow 更 成 熟 、 更 完善 ， 同 时 Theano 的 很 多 主要 开发 者 都 去 
了 Google 开 发 TensorFlow (例如 书籍 Deep Learning 的 作者 Ian 
Goodfellow， 他 后 来 去 了 OpenAI) 。Google 作 为 巨头 公司 有 比 高 校 或 者 
个 人 开发 者 多 得 多 的 资源 投入 到 TensorFlow 的 研发 ， 可 以 预见 ， 
TensorFlow 未 来 的 发 展 将 会 是 飞速 的 ， 可 能 会 把 大 学 或 者 个 人 维护 的 深度 
学 习 框架 远 远 甩 在 身后 。 

2.2.2 Caffe 

官方 网 址 : caffe.berkeleyvision.org/ GitHub: github.com/BVLC/caffe 


Caffe 全 称 为 Convolutional Architecture for Fast Feature Embedding, Œ 
一 个 被 广泛 使 用 的 开源 深度 学 习 框 架 〈 在 TensorFlow 出 现 之 前 一 直 是 深度 
学 习 领 域 GitHub star 最 多 的 项 目 ) ， 目 前 由 伯克利 视觉 学 中 心 (Berkeley 
Vision and Learning Center, BVLC) 进行 维护 。Caffe 的 创始 人 是 加 州 大 
学 伯克利 的 Ph.D. 贾 扬 清 ， 他 同时 也 是 TensorFlow 的 作者 之 一 ， 曾 工作 于 
MSRA、NEC 和 Google Brain， 目 前 就 职 于 Facebook FAIR 实 验 室 。Caffe 的 
主要 优势 包括 如 下 几 点 。 


(1) 容易 上 手 ， 网 络 结构 都 是 以 配置 文件 形式 定义 ， 不 需要 用 代码 
设计 网 络 。 


(2) 训练 速度 快 ， 能 够 训练 state-of-the-art 的 模型 与 大 规模 的 数据 。 
(3) 组 件 模块 化 ， 可 以 方便 地 拓展 到 新 的 模型 和 学 习 任务 上 。 


Caffe 的 核心 概念 是 Layer， 每 一 个 神经 网 络 的 模块 都 是 一 个 Layer。 
Layer 接 收 输入 数据 ， 同 时 经 过 内 部 计算 产生 输出 数据 。 设 计 网 络 结构 
时 ， 只 需要 把 各 个 Layer 拼 接 在 一 起 构成 完整 的 网 络 〈 通 过 写 protobuf 配 置 
文件 定义 ) 。 上 比如 卷 积 的 Layer， 它 的 输入 就 是 图 片 的 全 部 像素 点 ， 内 部 
进行 的 操作 是 各 种 像素 值 与 Layer 参 数 的 convolution 操 作 ， 最 后 输出 的 是 
所 有 卷 积 核 filter 的 结果 。 每 一 个 Layer 需 要 定义 两 种 运算 ， 一 种 是 正 向 

(forward) 的 运算 ， 即 从 输入 数据 计算 输出 结果 ， 也 就 是 模型 的 预测 过 
程 ; 另 一 种 是 反 向 (backward) 的 运算 ， 从 输出 端的 gradient 求 解 相对 于 
输入 的 gradient， 即 反 向 传播 算法 ， 这 部 分 也 就 是 模型 的 训练 过 程 。 实 现 
新 Layer 时 ， 需 要 将 正 向 和 反 向 两 种 计算 过 程 的 图 数 都 实现 ， 这 部 分 计算 
需要 用 户 自己 写 C++ 或 者 CUDA 〈 当 需要 运行 在 GPU 时 ) 代码 ， 对 普通 用 
户 来 说 还 是 非常 难 上 手 的 。 正 如 它 的 名 字 Convolutional Architecture for 
Fast Feature Embedding 所 描述 的 ，Caffe 最 开始 设计 时 的 目标 只 针对 于 
像 ， 没 有 考虑 文本 、 语 音 或 者 时 间 序 列 的 数据 ， 因 此 Caffe 对 卷 积 神经 网 


络 的 支持 非常 好 ， 但 对 时 间 序 列 RNN、LSTM 等 支持 得 不 是 特别 充分 。 同 
时 ， 基 于 Layer 的 模式 也 对 RNN 不 是 非常 友好 ， 定 义 RNN 结 构 时 比较 麻 
烦 。 在 模型 结构 非常 复杂 时 ， 可 能 需要 写 非常 见长 的 配置 文件 才能 设计 
好 网 络 ， 而 且 阅 读 时 也 比较 费力 。 


Caffe 的 一 大 优势 是 拥有 大 量 的 训练 好 的 经 典 模型 (AlexNet、VGG、 
Inception) 74 Æ Ħ {ft state-of-the-art (ResNet 等 ) 的 模型 ， 收 藏 在 它 的 
Model Zoo (github.com/BVLC/ caffe/wiki/Model-Zoo) 。 因 为 知名 度 较 
高 ，Caffe 被 广泛 地 应 用 于 前 沿 的 工业 界 和 学 术 界 ， 许 多 提供 源码 的 深度 
学 习 的 论文 都 是 使 用 Caffe 来 实现 其 模型 的 。 在 计算 机 视觉 领域 Caffe 应 用 
尤其 多 ， 可 以 用 来 做 人 脸 识 别 、 图 片 分 类 、 位 置 检 测 、 目 标 追 踪 等 。 虽 
然 Caffe 主 要 是 面向 学 术 圈 和 研究 者 的 ， 但 它 的 程序 运行 非常 稳定 ， 代 码 
质量 比较 高 ， 所 以 也 很 适合 对 稳定 性 要 求 严格 的 生产 环境 ， 可 以 算是 第 
一 个 主流 的 工业 级 深度 学 习 框 架 。 因 为 Caffe 的 底层 是 基于 C++ 的 ， 因 此 
可 以 在 各 种 硬件 环境 编译 并 具有 良好 的 移植 性 ， 支 持 Linux、Mac 和 
Windows 系 统 ， 也 可 以 编译 部 署 到 移动 设备 系统 如 Android 和 iOS 上 。 和 其 
他 主流 深度 学 习 库 类 似 ，Caffe 也 提供 了 Python 语言 接口 pycaffe， 在 接触 
新 任务 ， 设 计 新 网 络 时 可 以 使 用 其 Python 接口 简化 操作 。 不 过 ， 通 常用 户 
还 是 使 用 Protobuf 配 置 文件 定义 神经 网 络 结构 ， 再 使 用 command line 进 行 
训练 或 者 预测 。Caffe 的 配置 文件 是 一 个 JSON 类 型 的 .prototxt 文 件 ， 其 中 
使 用 许多 顺序 连接 的 Layer 来 描述 神经 网 络 结构 。Caffe 的 二 进 制 可 执行 程 
序 会 提取 这 些 .prototxt 文 件 并 按 其 定义 来 训练 神经 网 络 。 理 论 上 ，Caffe 的 
用 户 可 以 完全 不 写 人 代码， 只 是 定义 网 络 结构 就 可 以 完成 模型 训练 了 。 
Caffe 完 成 训练 之 后 ， 用 户 可 以 把 模型 文件 打包 制作 成 简单 易 用 的 接口 ， 
比如 可 以 封装 成 Python 或 MATLAB 的 API。 不 过 在 .prototxt 文 件 内 部 设计 
网 络 节 构 可 能 会 比较 受 限 ， 没 有 像 TensorFlow 或 者 Keras 那 样 在 Python 中 
设计 网 络 结构 方便 、 自 由 。 更 重要 的 是 ，Caffe 的 配置 文件 不 能 用 编程 的 
方式 调整 超 参 数 ， 也 没有 提供 像 Scikit-learn 那 样 好 用 的 estimator 可 以 方便 
地 进行 交叉 验证 、 超 参数 的 Grid Search 等 操作 。Caffe 在 GPU 上 训练 的 性 
能 很 好 (使 用 单 块 GTX 1080 训 练 AlexNet 时 一 天 可 以 训练 上 百 万 张 图 
片 ) ， 但 是 目前 仅 支 持 单 机 多 GPU 的 训练 ， 没 有 原生 支持 分 布 式 的 训 
练 。 庆 乎 的 是 ， 现 在 有 很 多 第 三 方 的 支持 ， 比 如 雅虎 开源 的 
CaffeOnSpark， 可 以 借助 Spark 的 分 布 式 框架 实现 Caffe 的 大 规模 分 布 式 训 
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2.2.3 Theano 


官方 网 址 : http://www.deeplearning.net/software/theano/ 
GitHub: github.com/Theano/Theano 


Theano 诞 生 于 2008 年 ， 由 蒙特 利 尔 大 学 Lisa Lab 团 队 开 发 并 维护 ， 是 
一 个 高 性 能 的 符号 计算 及 深度 学 习 库 。 因 其 出 现时 间 早 ， 可 以 算是 这 类 
库 的 始祖 之 一 ， 也 一 度 被 认为 是 深度 学 习 研 究 和 应 用 的 重要 标准 之 一 。 
Theano 的 核心 是 一 个 数学 表达 式 的 编译 器 ， 专 门 为 处 理 大 规模 神经 网 络 
训练 的 计算 而 设计 。 它 可 以 将 用 户 定 义 的 各 种 计算 编译 为 高 效 的 底层 代 
码 ， 并 链接 各 种 可 以 加 速 的 库 ， 比 如 BLAS、CUDA 等 。Theano 人 允许 用 户 
定义 、 优 化 和 评估 包含 多 维 数组 的 数学 表达 式 ， 它 支持 将 计算 装载 到 
GPU (Theano 在 GPU 上 性 能 不 错 ， 但 是 CPU 上 较 差 ) 。 与 Scikit-learn 一 
样 ，Theano 也 很 好 地 整合 了 NumPy， 对 GPU 的 透明 让 Theano 可 以 较为 方 
便 地 进行 神经 网 络 设计 ， 而 不 必 直 接 写 CUDA 代 码 。Theano 的 主要 优势 如 
下 。 


(1) 集成 NumPy， 可 以 直接 使 用 NumPy 的 ndarray，API 接 口 学 习 成 
本 低 。 


(2) 计算 稳定 性 好 ， 比 如 可 以 精准 地 计算 输出 值 很 小 的 函数 〈 像 
log(1+x )) 5 


(3) 动态 地 生成 C 或 者 CUDA 代 码 ， 用 以 编译 成 高 效 的 机 器 代码 。 


因为 Theano 非 常 流行 ， 有 许多 人 为 它 编写 了 高 质量 的 文档 和 教程 ， 
用 户 可 以 方便 地 查找 Theano 的 各 种 FAQ， 比 如 如 何 保存 模型 、 如 何 运 行 
模型 等 。 不 过 Theano 更 多 地 被 当 作 一 个 研究 工具 ， 而 不 是 当 作 产 品 来 使 
用 。 虽 然 Theano 支 持 Linux、Mac 和 Windows， 但 是 没有 底层 C++ 的 接口 ， 
因此 模型 的 部 署 非常 不 方便 ， 依 赖 于 各 种 Python 库 ， 并 且 不 支持 各 种 移动 
设备 ， 所 以 几乎 没有 在 工业 生产 环境 的 应 用 。Theano 在 调试 时 输出 的 错 
误 信息 非常 难以 看 懂 ， 因 此 DEBUG 时 非常 痛苦 。 同 时 ，Theano 在 生产 环 
境 使 用 训练 好 的 模型 进行 预测 时 性 能 比较 差 ， 因 为 预测 通常 使 用 服务 器 
CPU (生产 环境 服务 器 一 般 没 有 GPU， 而 且 GPU 预 测 单条 样本 延迟 高 有 反 
而 不 如 CPU) ， 但 是 Theano 在 CPU 上 的 执行 性 能 比较 差 。 


Theano 在 单 GPU 上 执行 效率 不 错 ， 性 能 和 其 他 框架 类 似 。 但 是 运算 
时 需要 将 用 户 的 Python 代码 转换 成 CUDA 代 码 ， 再 编译 为 二 进 制 可 执行 文 
件 ， 编 译 复杂 模型 的 时 间 非 常 久 。 此 外 ，Theano 在 导入 时 也 比较 慢 ， 而 
且 一 旦 设 定 了 选择 某 块 GPU ， 融 无 法 切换 到 其 他 设备 。 目 前 ，Theano 在 
CUDA 和 cuDNN 上 不 支持 多 GPU， 只 在 OpenCL 和 Theano 自 己 的 gpuarray 


库 上 支持 多 GPU 训 练 ， 速 度 暂 时 还 比 不 上 CUDA 的 版 本 ， 并 且 Theano 目 前 
还 没有 分 布 式 的 实现 。 不 过 ，Theano 在 训练 简单 网 络 (比如 很 浅 的 
MLP) 时 性 能 可 能 比 TensorFlow 好 ， 因 为 全 部 代码 都 是 运行 时 编译 ， 不 需 
要 像 TensorFlow 那 样 每 次 feed mini-batch 数 据 时 都 得 通过 低 效 的 Python 循 
环 来 实现 。 


Theano 是 一 个 完全 基于 Python (C++/CUDA 代 码 也 是 打包 为 Python 字 
符 串 ) 的 符号 计算 库 。 用 户 定 义 的 各 种 运算 ，Theano 可 以 自动 求 导 ， 省 
去 了 完全 手工 写 神 经 网 络 反 向 传播 算法 的 麻烦 ， 也 不 需要 像 Caffe 一 样 为 
Layer 写 C++ 或 CUDA 代 码 。Theano 对 卷 积 神经 网 络 的 支持 很 好 ， 同 时 它 
的 符号 计算 API 支 持 循环 控制 (内 部 名 scan) ， 让 RNN 的 实现 非常 简单 并 

高 性 能 ， 其 全 面 的 功能 也 让 Theano 可 以 支持 大 部 分 state-of-the-art 的 网 
络 。Theano 派 生出 了 大 量 基于 它 的 深度 学 习 库 ， 包 括 一 系列 的 上 层 封 
装 ， 其 中 有 大 名 昂昂 的 Keras，Keras 对 神经 网 络 抽象 得 非常 合适 ， 以 至 于 
可 以 随意 切换 执行 计算 的 后 端 (目前 同时 支持 Theano 和 TensorFlow) o 
Keras 比 较 适 合 在 探索 阶段 快速 地 尝试 各 种 网 络 结构 ， 组 件 都 是 可 插 拔 的 
模块 ， 只 需要 将 一 个 个 组 件 (比如 卷 积 层 、 激 活水 数 等 ) 连接 起 来 ， 但 
是 设计 新 模块 或 者 新 的 Layer 就 不 太 方便 了 。 除 Keras 外 ， 还 有 学 术 界 非常 
喜爱 的 Lasagne， 同 样 也 是 Theano 的 上 层 封装 ， 它 对 神经 内 网 络 的 每 一 层 
的 定义 都 非常 严 着 。 另 外 ， 还 有 scikit-neuralnetwork、noleam 这 两 个 基于 
Lasagne 的 上 层 封 装 ， 它 们 将 神经 网 络 抽象 为 兼容 Scikit-learn 接 口 的 
classifier 和 regressor ， 这 样 就 可 以 方便 地 使 用 Scikit-leamm 中 经 典 的 ft、 
transform, score 等 操作 。 除 此 之 外 ，Theano 的 上 层 封 装 库 还 有 blocks、 
deepy、 pylearn2 和 Scikit-theano ， 可 谓 是 一 个 庞大 的 家 族 。 如 果 没 有 
Theano， 可 能 根本 不 会 出 现 这 么 多 好 用 的 Python 深 度 学 习 库 。 同 样 ， 如 果 
没有 Python 科学 计算 的 基石 NumPy， 就 不 会 有 SciPy、Scikit-learn 和 Scikit- 
image， 可 以 说 Theano 就 是 深度 学 习 界 的 NumPy， 是 其 他 各 类 Python 深度 
学 习 库 的 基石 。 虽 然 Theano 非 党 重要， 但 是 直接 使 用 Theano 设 计 大 型 的 
神经 网 络 还 是 太 烦 琐 了 ， 用 Theano 实 现 Google Inception 就 像 用 NumPy 实 
现 一 个 支持 向 量 机 (SVM) 。 且 不 说 很 多 用 户 做 不 到 用 Theano 实 现 一 个 
Inception 网 络 ， 即 使 能 做 到 但 是 否 有 必要 花 这 个 时 间 呢 ? 毕竟 不 是 所 有 人 
都 是 基础 科学 工作 者 ， 大 部 分 使 用 场景 还 是 在 工业 应 用 中 。 所 以 简单 易 
用 是 一 个 很 重要 的 特性 ， 这 也 就 是 其 他 上 层 封 装 库 的 价值 所 在 : 不 需要 
总 是 从 最 基础 的 tensor 粒 度 开 始 设计 网 络 ， 而 是 从 更 上 层 的 Layer 粒 度 设 计 
网 络 。 


2.2.4 Torch 


官方 网 址 : http://torch.ch/ 
GitHub: github.com/torch/torch7 


Torch 给 自己 的 定位 是 LuaJIT 上 的 一 个 高 效 的 科学 计算 库 ， 支 持 大 量 
的 机 器 学 习 算 法 ， 同 时 以 GPU 上 的 计算 优先 。Torch 的 历史 非常 悠久 ， 但 
真正 得 到 发 扬 光 大 是 在 Facebook 开 源 了 其 深度 学 习 的 组 件 之 后 ， 此 后 包 
括 Google、Twitter、NYU、IDIAP、Purdue 等 组 织 都 大 量 使 用 Torch。 
Torch 的 目标 是 让 设计 科学 计算 算法 变 得 便捷 ， 它 包含 了 大 量 的 机 器 学 
习 、 计 算 机 视觉 、 信 号 处 理 、 并 行 运算 、 图 像 、 视 频 、 音 频 、 网 络 处 理 
的 库 ， 同 时 和 Caffe 类 似 ，Torch 拥 有 大 量 的 训练 好 的 深度 学 习 模 型 。 它 可 
以 支持 设计 非常 复杂 的 神经 网 络 的 拓扑 图 结构 ， 再 并 行 化 到 CPU 和 GPU 
上 ， 在 Torch 上 设计 新 的 Layer 是 相对 简单 的 。 它 和 TensorFlow 一 样 使 用 了 
底层 C++ 加 上 层 脚 本 语言 调用 的 方式 ， 只 不 过 Torch 使 用 的 是 Lua。Lnua 的 
性 能 是 非常 优秀 的 〈 该 语言 经 常 被 用 来 开发 游戏 ) ， 常 见 的 代码 可 以 通 
过 透明 的 JIT 优 化 达到 C 的 性 能 的 80%; 在 便利 性 上 ，Lua 的 语法 也 非常 简 
单 易 读 ， 拥 有 漂亮 和 统一 的 结构 ， 易 于 掌握 ， 比 写 C/C++ 简 洁 很 多 ; Al 
时 ，Lua 拥 有 一 个 非常 直接 的 调用 C 程 序 的 接口 ， 可 以 简便 地 使 用 大 量 基 
于 C 的 库 ， 因 为 底层 核心 是 C 写 的 ， 因 此 也 可 以 方便 地 移植 到 各 种 环境 。 
Lua 支 持 Linux、Mac， 还 支持 各 种 做 入 式 系统 (iOS. Android, FPGA 
等 ) ， 只 不 过 运行 时 还 是 必须 有 LuaJIT 的 环境 ， 所 以 工业 生产 环境 的 使 
用 相对 较 少 ， 没 有 Caffe 和 TensorFlow 那 么 多 。 


为 什么 不 简单 地 使 用 Python 而 是 使 用 LuaJIT 呢 ? 官方 给 出 了 以 下 几 点 
理由 。 


(1) LuaJIT 的 通用 计算 性 能 远 胜 于 Python， 而 且 可 以 直接 在 LuaJIT 
中 操作 C 的 pointers。 


(2) Torch 的 框架 ， 包 含 Lua 是 自治 的 ， 而 完全 基于 Python 的 程序 对 
不 同 平台 、 系 统 移植 性 较 差 ,依赖 的 外 部 库 较 多 。 


(3) LuaJIT 的 FFI 拓 展 接 口 非常 易学 ， 可 以 方便 地 链接 其 他 库 到 
Torch 中 。 Torch 中 还 专门 设计 了 N-Dimension array type 的 对 象 Tensor， 
Torch 中 的 Tensor 是 一 块 内 存 的 视图 ， 同 时 一 块 内 存 可 能 有 许多 视图 
(Tensor) 指向 它 ， 这 样 的 设计 同时 兼顾 了 性 能 (直接 面向 内 存 ) 和 便利 
性 。 同 时 ，Torch 还 提供 了 不 少 相 关 的 库 ， 包 括 线性 代数 、 卷 积 、 伟 里 叶 
变换 、 绘 图 和 统计 等 ， 如 图 2-5 所 示 。 
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图 2-5 


Torch 提 供 的 各 种 数据 处 理 的 库 。 


Torch 的 nn 库 支 持 神 经 网 络 、 自 编码 器 、 线 性 回归 、 卷 积 网 络 、 循 环 
神经 网 络 等 ， 同 时 支持 定制 的 损失 水 数 及 梯度 计算 。Torch 因 为 使 用 了 
LuaJIT， 因 此 用 户 在 Lua 中 做 数据 预 处 理 等 操作 可 以 随意 使 用 循环 等 操 
作 ， 而 不 必 像 在 Python 中 那样 担心 性 能 问题 ， 也 不 需要 学 习 Python 中 各 种 
加 速 运算 的 库 。 不 过 ，Lua 相 比 Python 还 不 是 那么 主流 ， 对 大 多 数 用 户 有 
学 习 成 本 。Torch 在 CPU 上 的 计算 会 使 用 OpenMP、SSE 进 行 优化 ，GPU 上 
使 用 CUDA、cutorch、cunn、cuDNN 进 行 优化 ， 同 时 还 有 cuda-convnet 的 
wrapper。 Torch 有 很 多 第 三 方 的 扩展 可 以 支持 RNN， 使 得 Torch 基 本 支持 
所 有 主流 的 网 络 。 和 Caffe 类 似 的 是 ，Torch 也 是 主要 基于 Layer 的 连接 来 定 
义 网 络 的 。Torch 中 新 的 Layer 依 然 需要 用 户 自己 实现 ， 不 过 定义 新 Layer 
和 定义 网 络 的 方式 很 相似 ， 非 常 简便 ， 不 像 Caffe 那 么 麻烦 ， 用 户 需 要 使 
用 C++ 或 者 CUDA 定 义 新 Layer。 同 时 ，Torch 属 于 命令 式 编 程 模式 ， 不 像 
Theano、TensorFlow 属 于 声明 性 编程 (计算 图 是 预定 义 的 静态 的 结构 ) ， 
所 以 用 它 实 现 某 些 复杂 操作 (比如 beam search) 比 Theano 和 TensorFlow 方 
便 很 多 。 

2.2.5 Lasagne 

官网 网 址 : http://lasagne.readthedocs.io/ 

GitHub: github.com/Lasagne/Lasagne 


Lasagne 是 一 个 基于 Theano 的 轻 量 级 的 神经 网 络 库 。 它 支持 前 馈 神经 
网 络 ， 比 如 卷 积 网 络 、 循 环 神 经 网 络 、LSTM 等 ， 以 及 它们 的 组 合 ， 支 持 
许多 优化 方法 ， 比 如 Nesterov momentum、RMSprop、ADAM 等 ; 它 是 
Theano 的 上 层 封 装 ， 但 又 不 像 Keras 那 样 进行 了 重度 的 封装 ，Keras 隐 藏 了 
Theano 中 所 有 的 方法 和 对 象 ， 而 Lasagne 则 是 借用 了 Theano 中 很 多 的 类 ， 
算是 介 于 基础 的 Theano 和 高 度 抽象 的 Keras 之 间 的 一 个 轻 度 封装 ， 简 化 了 
操作 同时 支持 比较 底层 的 操作 。Lasagne 设 计 的 六 个 原则 是 简洁 、 透 明 、 
模块 化 、 实 用 、 聚 焦 和 专注 。 


2.2.6 Keras 


官方 网 址 : keras.io 
GitHub: github.com/fchollet/keras 


Keras 是 一 个 崇尚 极 简 、 高 度 模块 化 的 神经 网 络 库 ， 使 用 Python 实 
现 ， 并 可 以 同时 运行 在 TensorFlow 和 Theano 上 。 它 则 在 让 用 户 进 行 最 快速 
的 原型 实验 ， 让 想法 变 为 结果 的 这 个 过 程 最 短 。Theano 和 TensorFlow 的 计 
算 图 支持 更 通用 的 计算 ， 而 Keras 则 专 精 于 深度 学 习 。 Theano 和 
TensorFlow 更 像 是 深度 学 习 领 域 的 NumPy， 而 Keras 则 是 这 个 领域 的 Scikit- 
learn。 它 提供 了 目前 为 止 最 方便 的 API， 用 户 只 需要 将 高 级 的 模块 拼 在 一 
起 ， 就 可 以 设计 神经 网 络 ， 它 大 大 降低 了 编程 开销 (code overhead) 和 阅 
读 别 人 代码 时 的 理解 开销 (cognitive overhead) 。 它 同时 支持 卷 积 网 络 和 
循环 网 络 ， 支 持 级 联 的 模型 或 任意 的 图 结构 的 模型 〈 可 以 让 某 些 数据 跳 
过 某 些 Layer 和 后 面 的 Layer 对 接 ， 使 得 创建 Inception 等 复杂 网 络 变 得 容 
Ja) ， 从 CPU 上 计算 切换 到 GPU 加 速 无 须 任何 代码 的 改动 。 因 为 底层 使 
用 Theano 或 TensorFlow， 用 Keras 训 练 模 型 相 比 于 前 两 者 基本 没有 什么 性 
能 损耗 (还 可 以 享受 前 两 者 持续 开发 带 来 的 性 能 提升 ) ， 只 是 简化 了 编 
程 的 复杂 度 ， 节 约 了 尝试 新 网 络 结构 的 时 间 。 可 以 说 模型 越 复 杂 ， 使 用 
Keras 的 收益 就 越 大 ， 尤 其 是 在 高 度 依 赖 权 值 共享 、 多 模型 组 合 、 多 任务 
学 习 等 模型 上 ，Keras 表 现 得 非常 突出 。Keras 所 有 的 模块 都 是 简洁 、 
懂 、 完 全 可 配置 、 可 随意 插 拔 的 ， 并 且 基 本 上 没有 任何 使 用 限制 ， 神 经 
网 络 、 损 失 遂 数 、 优 化 器 、 初 始 化 方法 、 激 活 遂 数 和 正则 化 等 模块 都 是 
可 以 自由 组 合 的 。Keras 也 包括 绝 大 部 分 state-of-the-art 的 Trick， 包 括 
Adam、 RMSProp、Batch Normalization、PReLU、ELU、LeakyReLU 等 。 
同时 ， 新 的 模块 也 很 容易 添加 ， 这 让 Keras 非 常 适合 最 前 沿 的 研究 。Keras 
中 的 模型 也 都 是 在 Python 中 定义 的 ， 不 像 Caffe、CNTK 等 需要 额外 的 文件 
来 定义 模型 ， 这 样 就 可 以 通过 编程 的 方式 调试 模型 结构 和 各 种 超 参数 。 
在 Keras 中 ， 只 需要 几 行 代码 就 能 实现 一 个 MLP， 或 者 十 几 行 代码 实现 一 
个 AlexNet， 这 在 其 他 深度 学 习 框架 中 基本 是 不 可 能 完成 的 任务 。 Keras 最 
大 的 问题 可 能 是 目前 无 法 直接 使 用 多 GPU ， 所 以 对 大 规模 的 数据 处 理 速 
度 没 有 其 他 支持 多 GPU 和 分 布 式 的 框架 快 。Keras 的 编程 模型 设计 和 Torch 
很 像 ， 但 是 相 比 Torch ，Keras 构 建 在 Python 上 ， 有 一 套 完 整 的 科学 计算 工 
具 链 ， 而 Torch 的 编程 语言 Lua 并 没有 这 样 一 条 科学 计算 工具 链 。 无 论 从 社 
区 人 数 ， 还 是 活跃 度 来 看 ，Keras 目 前 的 增长 速度 都 已 经 远 远 超过 了 
Torcho 


2.2.7 MXNet 


官网 网 址 : mxnet.io 
GitHub: github.com/dmlc/mxnet 


MXNet 是 DMLC (Distributed Machine Learning Community) 开发 的 
一 款 开 源 的 、 轻 量 级 、 可 移植 的 、 灵 活 的 深度 学 习 库 ， 它 让 用 户 可 以 混 
合 使 用 符号 编程 模式 和 指令 式 编程 模式 来 最 大 化 效率 和 有 灵活 性 ， 目 前 已 
经 是 AWS 官 方 推荐 的 深度 学 习 框 架 。MXNet 的 很 多 作者 都 是 中 国人 ， 其 
最 大 的 贡献 组 织 为 百度 ， 同 时 很 多 作者 来 自 cxxnet、minerva 和 purine2 等 
深度 学 习 项 目 ， 可 谓 博 采 众 家 之 长 。 它 是 各 个 框架 中 率先 支持 多 GPU 和 
分 布 式 的 ， 同 时 其 分 布 式 性 能 也 非常 高 。MXNet 的 核心 是 一 个 动态 的 依 
赖 调度 器 ， 支 持 自动 将 计算 任务 并 行 化 到 多 个 GPU 或 分 布 式 集群 (支持 
AWS, Azure, Yam) 。 它 上 层 的 计算 图 优化 算法 可 以 让 符号 计算 执行 
得 非常 快 ， 而 且 节 约 内 存 ， 开 启 mirror 模 式 会 更 加 省 内 存 ， 甚 至 可 以 在 某 
些小 内 存 GPU 上 训练 其 他 框架 因 显 存 不 够 而 训练 不 了 的 深度 学 习 模 型 ， 
也 可 以 在 移动 设备 (Android、iOS) 上 运行 基于 深度 学 习 的 图 像 识 别 等 
任务 。 此 外 ，MXNet 的 一 个 很 大 的 优点 是 支持 非常 多 的 语言 封装 ， 比 如 
C++、Python、R、Julia、Scala、Go、MATLAB 和 JavaScript 等 ， 可 谓 非 常 
全 面 ， 基 本 主流 的 脚本 语言 全 部 都 支持 了 。 在 MXNet 中 构建 一 个 网 络 需 
要 的 时 间 可 能 比 Keras、Torch 这 类 高 度 封 装 的 框架 要 长 ， 但 是 比 直接 用 
Theano 等 要 快 。MXNet 的 各 级 系统 架构 (下 面 为 硬件 及 操作 系统 底层 ， 
逐 层 向 上 为 越 来 越 抽象 的 接口 ) 如 图 2-6 所 示 。 
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2.2.8 DIGITS 
官方 网 址 : developer.nvidia.com/digits 
GitHub: github.com/NVIDIA/DIGITS 


DIGITS (Deep Learning GPU Training System) 不 是 一 个 标准 的 深度 
学 习 库 ， 它 可 以 算是 一 个 Caffe 的 高 级 封装 (或 者 Caffe 的 Web 版 培训 系 
统 ) 。 因 为 封装 得 非常 重 ， 以 至 于 你 不 需要 (也 不 能 ) 在 DIGITS 中 写 代 
码 ， 即 可 实现 一 个 深度 学 习 的 图 片 识别 模型 。 在 Caffe 中 ， 定 义 模型 结 
构 、 预 处 理 数据 、 进 行 训 练 并 监控 训练 过 程 是 相对 比较 烦琐 的 ，DIGITS 
把 所 有 这 些 操作 都 简化 为 在 浏览 器 中 执行 。 它 可 以 算 作 Caffe 在 图 片 分 类 
上 的 一 个 漂亮 的 用 户 可 视 化 界面 (GUD ， 计 算 机 视觉 的 研究 者 或 者 工程 
师 可 以 非常 方便 地 设计 深度 学 习 模 型 、 测 试 准确 率 ， 以 及 调试 各 种 超 参 
数 。 同 时 使 用 它 也 可 以 生成 数据 和 训练 结果 的 可 视 化 统计 报表 ， 甚 至 是 
网 络 的 可 视 化 结构 图 。 训 练 好 的 Caffe 模 型 可 以 被 DIGITS 直 接 使 用 ， 上 传 
图 片 到 服务 器 或 者 输入 url 即 可 对 图 片 进 行 分 类 。 


2.2.9 CNTK 
官方 网 址 : cntk.ai 
GitHub: github.com/Microsoft/CNTK 


CNTK (Computational Network Toolkit) 是 微软 研究 院 (MSR) 开源 
的 深度 学 习 框架 。 它 最 早 由 start the deep learning craze 的 演讲 人 创建 ， 目 
前 已 经 发 展 成 一 个 通用 的 、 跨 平台 的 深度 学 习 系统 ， 在 语音 识别 领域 的 
使 用 尤其 广泛 。CNTK 通 过 一 个 有 向 图 将 神经 网 络 描述 为 一 系列 的 运算 操 
作 ， 这 个 有 向 图 中 子 节点 代表 输入 或 网 络 参数 ， 其 他 节点 代表 各 种 矩阵 
运算 。CNTK 支 持 各 种 前 馈 网 络 ， 包 括 MLP、CNN、RNN、LSTM、 
Sequence-to-Sequence 模 型 等 ， 也 支持 自动 求解 梯度 。CNTK 有 丰富 的 细 粒 
度 的 神经 网 络 组 件 ， 使 得 用 户 不 需要 写 底 层 的 C++ 或 CUDA， 就 能 通过 组 
合 这 些 组 件 设计 新 的 复杂 的 Layer。CNTK 拥 有 产品 级 的 代码 质量 ， 支 持 
多 机 、 多 GPU 的 分 布 式 训练 。 


CNTK 设 计 是 性 能 导向 的 ， 在 CPU、 单 GPU、 多 GPU， 以 及 GPU 集群 
上 都 有 非常 优异 的 表现 。 同 时 微软 最 近 推 出 的 1-bit compression 技 术 大 大 
降低 了 通信 代价 ， 让 大 规模 并 行 训练 拥有 了 很 高 的 效率 。CNTK 同 时 宣称 
拥有 很 高 的 灵活 度 ， 它 和 Caffe 一 样 通过 配置 文件 定义 网 络 结构 ， 再 通过 
命令 行程 序 执行 训练 ， 支 持 构建 任意 的 计算 图 ， 支 持 AdaGrad、RmsProp 
等 优化 方法 。 它 的 另 一 个 重要 特性 就 是 拓展 性 ，CNTK 除 了 内 置 的 大 量 运 
算 核 ， 还 允许 用 户 定义 他 们 上 自己 的 计算 节点 ， 支 持 高 度 的 定制 化 。CNTK 
在 2016 年 9 月 发 布 了 对 强化 学 习 的 支持 ， 同 时 ， 除 了 通过 写 配 置 文件 的 方 
式 定 义 网 络 结构 ，CNTK 还 将 支持 其 他 语言 的 绪 定 ， 包 括 Python、C++ 和 
C#， 这 样 用 户 就 可 以 用 编程 的 方式 设计 网 络 结构 。CNTK 与 Caffe 一 样 也 


基于 C++ 并 且 跨 平台 ， 大 部 分 情况 下 ， 它 的 部 署 非 常 简单 。PC 上 支持 
Linux、Mac 和 Windows， 但 是 它 目前 不 支持 ARM 架 构 ， 限 制 了 其 在 移动 
设备 上 的 发 挥 。 图 2-7 所 示 为 CNTK 目 前 的 总 体 架 构图 。 
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图 2-7 CNTK 的 总 体 架 构图 


CNTK 原 生 支 持 多 GPU 和 分 布 式 ， 从 官网 公布 的 对 比 评测 来 看 ， 性 能 
非常 不 错 。 在 多 GPU 方面 ，CNTK 相 对 于 其 他 的 深度 学 习 库 表 现 得 更 突 
出 ， 它 实现 了 1-bit SGD 和 自 适 应 的 mini-batching。 图 2-8 所 示 为 CNTK 官 网 
公布 的 在 2015 年 12 月 的 各 个 框架 的 性 能 对 比 。 在 当时 ，CNTK 是 唯一 支持 
单机 8 块 GPU 的 框架 ， 并 且 在 分 布 式 系统 中 可 以 超越 8 块 GPU 的 性 能 。 
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图 2-8 ”CNTK 与 各 个 框架 的 性 能 对 比 


2.2.10 Deeplearning4J 


官方 网 址 : http://deeplearning4j.org/ 
GitHub: github.com/deeplearning4j/deeplearning4j 


Deeplearning4J (简称 DL4J) 是 一 个 基于 Java 和 Scala 的 开源 的 分 布 式 
深度 学 习 库 ， 由 Skymind 于 2014 年 6 月 发 布 ， 其 核心 目标 是 创建 一 个 即 插 
即 用 的 解决 方案 原型 。 埃 森 藻 、 雪 弗 兰 、 博 斯 咨询 和 IBM 等 都 是 DL4J 的 
客户 。DL4J 拥 有 一 个 多 用 途 的 n-dimensional array 的 类 ， 可 以 方便 地 对 数 
据 进 行 各 种 操作 ; 拥有 多 种 后 端 计 算 核 心 ， 用 以 支持 CPU 及 GPU 加 速 ， 
在 图 像 识别 等 训练 任务 上 的 性 能 与 Caffe 相 当 ; 可 以 与 Hadoop 及 Spark 自 动 
整合 ， 同 时 可 以 方便 地 在 现 有 集群 (包括 但 不 限于 AWS，Azure 等 ) bit 
行 扩 展 ， 同 时 DL4J 的 并 行 化 是 根据 集群 的 节点 和 连接 自动 优化 ， 不 像 其 
他 深度 学 习 库 那样 可 能 需要 用 户 手动 调整 。DL4J 选 择 Java 作 为 其 主要 语 
言 的 原因 是 ， 目 前 基于 Java 的 分 布 式 计算 、 云 计算 、 大 数据 的 生态 非常 庞 
大 。 用 户 可 能 拥有 大 量 的 基于 Hadoop 和 Spark 的 集群 ， 因 此 在 这 类 集群 上 
搭建 深度 学 习 平 台 的 需求 便 很 容易 被 DL4J 满 足 。 同 时 JVM 的 生态 圈 内 还 
有 数不胜数 的 Library 的 支持 ， 而 DL4J 也 创建 了 ND4J， 可 以 说 是 JVM 中 的 
NumPy， 支 持 大 规模 的 矩阵 运算 。 此 外 ，DL4J 还 有 商业 版 的 支持 ， 付 费 
用 户 在 出 现 问 题 时 可 以 通过 电话 咨询 寻求 支持 。 

2.2.11 Chainer 

官方 网 址 : chainer.org 

GitHub: github.com/pfnet/chainer 


Chainer 是 由 日 本 公司 Preferred Networks 于 2015 年 6 月 发 布 的 深度 学 习 
框架 。Chainer 对 自己 的 特性 描述 如 下 。 


(1) Powerful: 支持 CUDA 计 算 ， 只 需要 几 行 代码 就 可 以 使 用 GPU 
加 速 ， 同 时 只 需 少 许 改动 就 可 以 运行 在 多 GPU 上 。 

(2) Flexible: 支持 多 种 前 馈 神 经 网 络 ， 包 括 卷 积 网 络 、 循 环 网 络 、 
递归 网 络 ， 支 持 运行 中 动态 定义 的 网 络 (Define-by-Run) o 


(3) Intuitive: 前 馈 计 算 可 以 引入 Python 的 各 种 控制 流 ， 同 时 反 向 传 
播 时 不 受 干扰 ， 简 化 了 调试 错误 的 难度 。 

绝 大 多 数 的 深度 学 习 框 架 是 基于 “Define-and-Run” 的 ， 也 就 是 说 ， 需 
要 首先 定义 一 个 网 络 ， 再 向 网 络 中 feed 数据 (mini-batch) 。 因 为 网 络 是 
预先 静态 定义 的 ， 所 有 的 控制 逻辑 都 需要 以 data 的 形式 插入 网 络 中 ， 包 括 
像 Caffe 那 样 定义 好 网 络 结构 文件 ， 或 者 像 Theano、Torch、TensorFlow 等 


使 用 编程 语言 定义 网 络 。 而 Chainer 则 相反 ， 网 络 是 在 实际 运行 中 定义 
的 ，Chainer 存 储 历 史 运 行 的 计算 结果 ， 而 不 是 网 络 的 结构 逻辑 ， 这 样 就 
可 以 方便 地 使 用 Python 中 的 控制 流 ， 所 以 无 须 其 他 工作 就 可 以 直接 在 网 络 
中 使 用 条 件 控制 和 循环 。 


2.2.12 Leaf 
官方 网 址 : autumnai.com/leaf/book 
GitHub: github.com/autumnai/leaf 


Leaf 是 一 个 基于 Rust 语 言 的 直观 的 跨 平 台 的 深度 学 习 乃 至 机 器 智能 框 
架 ， 它 拥有 一 个 清晰 的 架构 ， 除 了 同属 Autumn AI 的 底层 计算 库 
Collenchyma，Leaf 没 有 其 他 依赖 库 。 它 易于 维护 和 使 用 ， 并 且 拥 有 非常 
高 的 性 能 。Leaf 自 身 宣传 的 特点 是 为 Hackers 定 制 的 ， 这 里 的 Hackers 是 指 
希望 用 最 短 的 时 间 和 最 少 的 精力 实现 机 器 学 习 算 法 的 技术 极 客 。 它 的 可 
移植 性 非常 好 ， 可 以 运行 在 CPU、GPU 和 FPGA 等 设备 上 ， 可 以 支持 有 任 
何 操 作 系 统 的 PC、 服 务 器 ， 甚 至 是 没有 操作 系统 的 说 入 式 设 备 ， 并 且 同 
时 支持 OpenCL 和 CUDA。Leaf 是 Autumn AI 计 划 的 一 个 重要 组 件 ， 后 者 的 
目标 是 让 人 工 智 能 算法 的 效率 提高 100 倍 。 任 借 其 优秀 的 设计 ，Leaf 可 以 
用 来 创建 各 种 独立 的 模块 ， 比 如 深度 强化 学 习 、 可 视 化 监控 、 网 络 部 
署 、 目 动 化 预 处 理 和 大 规模 产品 部 署 等 。 


Leaf 拥 有 最 简单 的 API， 和 希望 可 以 最 简化 用 户 需要 掌握 的 技术 栈 。 虽 
然 才 刚 诞生 不 久 ，Leaf 就 已 经 跻身 最 快 的 深度 学 习 框 架 之 一 了 。 图 2-9 所 
示 为 Leaf 官 网 公布 的 各 个 框架 在 单 GPU 上 训练 YGG 网 络 的 计算 时 间 (ih 
小 越 好 ) 的 对 比 〈 这 是 和 早期 的 TensorFlow 对 比 ， 最 新 版 的 TensorFlow 性 
能 已 经 非常 好 了 ) 。 
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图 2-9 ”Leaf 和 各 深度 学 习 框架 的 性 能 对 比 〈 深 色 为 forawrd， 浅 色 为 backward) 


2.2.13 DSSTNE 
GitHub: github.com/amznlabs/amazon-dsstne 


DSSTNE (Deep Scalable Sparse Tensor Network Engine) 是 亚马逊 开 
Te BY Fp Ea 4 2S DR HER, EARE MEN RS RAN TA. 
DSSTNE 目 前 只 支持 全 连接 的 神经 网 络 ， 不 支持 卷 积 网 络 等 。 和 Caffe 类 
似 ， 它 也 是 通过 写 一 个 JSON 类 型 的 文件 定义 模型 结构 ， 但 是 支持 非常 大 
的 Layer (输入 和 输出 节点 都 非常 多 ) ; 在 激活 图 数 、 初 始 化 方式 及 优化 
器 方面 基本 都 支持 了 state-of-the-art 的 方法 ， 比 较 全 面 ; 支持 大 规模 分 布 
式 的 GPU 训 练 ， 不 像 其 他 框架 一 样 主要 依赖 数据 并 行 ，DSSTNE 支 持 自动 
的 模型 并 行 (使 用 数据 并 行 需要 在 训练 速度 和 模型 准确 度 上 做 一 定 的 


trade-off， 模 型 并 行 没有 这 个 问题 ) 。 


在 处 理 特征 非常 多 (上 亿 维 ) 的 稀疏 训练 数据 时 (经 常 在 推荐 、 广 
告 、 自 然 语 言 处 理 任务 中 出 现 ) ， 即 使 一 个 简单 的 3 个 隐 层 的 MLP 
(Multi-Layer Perceptron) 也 会 变 成 一 个 有 非常 多 参数 的 模型 (可 能 高 达 
上 万 亿 ) 。 以 传统 的 稠密 和 矩阵 的 方式 训练 方法 很 难处 理 这 么 多 的 模型 参 
数 ， 更 不 必 提 超大 规模 的 数据 量 ， 而 DSSTNE 有 整套 的 针对 稀 疏 数据 的 优 
化 ， 率 先 实 现 了 对 超大 稀 疏 数据 训练 的 支持 ， 同 时 在 性 能 上 做 了 非常 大 
的 改进 。 

TE DSSTNEB A Afa AY Mit, DSSTNE MovieLens BY 4% Et 2X dE 
上 ， 在 单 M40 GPU 上 取得 了 比 TensorFlow 快 14.8 倍 的 性 能 提升 (注意 是 和 
老 版 的 TensorFlow 比 较 ) ， 如 图 2-10 所 示 。 一 方面 是 因为 DSSTNE 对 稀 下 C 
数据 的 优化 ， 另 一 方面 是 TensorFlow 在 数据 传输 到 GPU 上 时 花费 了 大 量 时 
间 ， 而 DSSTNE 则 优化 了 数据 在 GPU 内 的 保留 ; 同时 DSSTNE 还 拥有 自动 
模型 并 行 功 能 ， 而 TensorFlow 中 则 需要 手动 优化 ， 没 有 自动 支持 。 
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3 ”TensorFlow 第 一 步 


前 两 章 我 们 讲 了 TensorFlow 的 核心 概念 和 编程 模型 ， 又 谈 了 
TensorFlow 和 其 他 深度 学 习 框 架 的 异同 。 本 章 将 直 奔 主题 ， 我 们 将 学 会 安 
装 TensorFlow， 然 后 使 用 TensorFlow (1.0.0-rc0) 训练 一 个 手写 数字 识别 

(MNIST) 的 模型 。 


3.1 ”TensorFlow 的 编译 及 安装 


TensorFlow 的 安装 方式 没有 Theano 那 么 直接 ， 因 为 它 并 不 是 全 部 由 
Python 写成 的 库 ， 底 层 有 很 多 C++ 乃至 CUDA 的 代码 ， 因 此 某 些 情况 下 可 
能 需要 编译 安装 (比如 你 的 gcc 版 本 比较 新 ， 硬 件 环境 比较 特殊 ， 或 者 你 
使 用 的 CUDA 版 本 不 是 realease 版 预 编译 的 ) 。 通 常安 装 TensorFlow 分 为 两 
种 情况 ， 一 种 是 只 使 用 CPU， 安 装 相 对 容易 ; 另 一 种 是 使 用 GPU ， 这 种 
情况 还 需要 安装 CUDA 和 cuDNN ， 情 况 相 对 复杂 。 然 而 不 管 哪 种 情况 ， 
我 们 都 推荐 使 用 Anaconda”? 作为 Python 环境 ， 因 为 可 以 避免 大 量 的 兼容 性 
问题 。 另 外 ， 本 书 默 认 使 用 Python 3.5 作 为 Python 的 基础 版 本 ， 相 比 
Python 2.7， 它 更 代表 了 Python 未 来 的 趋势 发 展 。TensorFlow 目 前 支持 得 
比较 完善 的 是 Linux 和 Mac (对 Windows 的 支持 还 不 太 全 面 ) 。 因 为 Mac 系 
统 主要 使 用 CPU 版 本 (Mac 系统 很 少 有 使 用 NVIDIA 显 卡 的 ， 而 目前 
TensorFlow 对 CUDA 支 持 得 比较 好 ， 对 OpenCL 的 支持 还 属于 实验 性 
质 ) ， 安 装 方式 和 Linux 的 CPU 版 基本 一 致 ， 而 Mac 一 般 没 有 NVIDIA 的 显 
卡 ， 所 以 不 适合 使 用 GPU 版 本 。 本 章 将 主要 讲解 在 Linux 下 安装 
TensorFlow 的 过 程 。 另 外 ， 本 书 基 于 2017 年 1 月 发 布 的 TensorFlow 1.0.0- 
rc0 版 ， 旧 版 本 在 运行 本 书 的 代码 时 可 能 会 有 不 兼容 的 情况 ， 所 以 建议 读 
者 都 安装 这 个 版 本 或 更 新 版 本 的 TensorFlow。 此 外 ， 本 书 推荐 有 条 件 的 读 
者 使 用 GPU 版 本 ， 因 为 在 训练 大 型 网 络 或 者 大 规模 数据 时 ，CPU 版 本 的 
速度 可 能 会 很 慢 。 

3.1.1 ”安装 Anaconda 


Anaconda 是 Python 的 一 个 科学 计算 发 行 版 ， 内 置 了 数 百 个 Python 经 音 
会 使 用 的 库 ， 也 包括 许多 我 们 做 机 器 学 习 或 数据 挖掘 的 库 ， 包 括 Scikit- 


learn、NumPy、SciPy 和 Pandas 等 ， 其 中 可 能 有 一 些 还 是 TensorFlow 的 依 
赖 库 。 我 们 在 安装 这 些 库 时 ， 通 常 都 需要 花费 不 少时 间 编 译 ， 而 且 经 常 
容易 出 现 兼容 性 问题 ，Anaconda 提 供 了 一 个 编译 好 的 环境 可 以 直接 安 
装 。 同 时 Anaconda 自 动 集成 了 最 新 版 的 MKL (Math Kernel Libaray) È, 
这 是 Intel 推 出 的 底层 数值 计算 库 ， 功 能 上 包含 了 BLAS (Basic Linear 
Algebra Software) 等 矩阵 运算 库 的 功能 ， 可 以 作为 NumPy、 SciPy、 
Scikit-learn、NumExpr 等 库 的 底层 依赖 ， 加 速 这 些 库 的 矩阵 运算 和 线性 代 
数 运算 。 简 单 来 说 ，Anaconda 是 目前 最 好 的 科学 计算 的 Python 环境 ， 方 
便 了 安装 ， 也 提高 了 性 能 。 本 书 强烈 推荐 安装 Anaconda， 接 下 来 的 章节 
也 将 默认 读者 使 用 Anaconda 作 为 TensorFlow 的 Python 环境 。 


(1) 我 们 在 Anaconda 的 官网 上 (www.continuum.io/downloads) 下 载 
Anaconda3 4.2.0 和 版 ， 请 读者 根据 自己 的 操作 系统 下 载 对 应 版 本 的 64 位 的 
Python 3.5 版 。 


(2) 我 们 在 Anaconda 的 下 载 目录 执行 以 下 命令 (请 根据 下 载 的 文件 
替换 对 应 的 文件 名 ) o 


bash Anaconda3-4.2.0-Linux-x86_64.sh 


(3) 接 下 来 我 们 会 看 到 安装 提示 ， 直 接 按 回 车 键 确 认 进入 下 一 步 。 
然后 我 们 会 进入 Anaconda 的 License 文 档 ， 这 里 直接 按 q 键 跳 过 ， 然 后 输入 
yes 人 确认 。 下 面 的 这 一 步 会 让 我 们 输入 anaconda3 的 安装 路 径 ， 没 有 特殊 情 
况 的 话 ， 我 们 可 以 按 回 车 键 使 用 默认 路 径 ， 然 后 安装 就 自动 开始 了 。 


(4) 安装 完成 后 ， 程 序 提示 我 们 是 否 把 anaconda3 的 binary 路 径 加 入 
到 .bashrc， 读 者 可 以 根据 自己 的 情况 考虑 ， 建 议 添加 ， 这 样 以 后 python 和 
ipython 命 令 就 会 自动 使 用 Anaconda Python3.5 的 环境 了 。 


3.1.2 TensorFlow CPU 版 本 的 安装 


TensorFlow 的 CPU 版 本 相对 容易 安装 ， 一 般 分 为 两 种 情况 : 第 一 种 情 
况 ， 安 装 编译 好 的 release 版 本 ， 推 荐 大 部 分 用 户 安装 这 种 版 本 ; 第 二 种 情 
况 ， 使 用 1.0.0-rc0 分 支 源 码 编译 安装 ， 当 用 户 的 系统 比较 特殊 ， 比 如 gcc 
版 本 比较 新 (gcc 6 以 上 ) ， 或 者 不 支持 使 用 编译 好 的 release 版 本 ， 才 推 
存 这 样 安装 。 


第 一 种 情况 ， 安 装 编译 好 的 release 版 本 ， 我 们 可 以 简单 地 执行 下 面 这 
个 命令 。python 的 默认 包 管 理 器 是 pip ， 直 接 使 用 pip 来 安装 TensorFlow。 


对 于 Mac 或 Windows 系 统 ， 可 在 TensorFlow 的 GitHub 人 仓库 上 的 Download 
and Setup 页 面 查看 编译 好 的 程序 的 地 址 。 


export TF_BINARY_URL=https://storage.googleapis.com/tensorflow/linux/cpu/ten 
sorflow-1.0.@rc@-cp35-cp35m-1linux_x86_64.whl 
pip install --upgrade $TF_BINARY_URL 


第 二 种 情况 ， 使 用 1.0.0-rc0 分 支 的 源码 编译 安装 

此 时 ， 确 保 系统 安装 了 gcc 《版 本 最 好 介 于 4.8 一 5.4 之 间 ) ， 如 果 没 
有 安装， 请 根据 自 忆 的 系统 情况 先 安装 gee， ATRB RA. UI, AT 
ta 1% TensorFlow ， 我 们 还 需要 有 Google 自 家 的 编译 工具 bazel 
( github.com/bazelbuild/bazel ) , 根据 其 安装 教程 


( www.bazel.io/versions/master/docs/install.html ) 直接 安装 它 的 v0.43 
release 版 本 即 可 ， 不 需要 使 用 最 新 的 dev 版 本 的 功能 。 


在 正确 地 安装 完 gcc 和 bazel 之 后 ， 接 下 来 我 们 正式 开始 编译 安装 
TensorFlow， 首 先 先 下 载 TensorFlow 1.0.0-rc0 的 源码 : 


wget https://github.com/tensorflow/tensorflow/archive/v1.0.0-rcO.tar.gz 
tar -xzvf v1.0.0-rcO.tar.gz 


完成 下 载 之 后 ， 进 入 TensorFlow 代 码 仓库 的 目录 ， 然 后 执行 下 面 的 命 
令 进 行 配置 : 


cd tensorflow-1.0.0-rc@ 


./configure 


接 下 来 的 输出 要 选择 python 路 径 ， 确 保 是 anaconda 的 python 路 径 即 
PJ: 


Please specify the location of python. [Default is /home/wenjian/anaconda3/b 


in/python]: 


这 里 选择 CPU 编译 优化 选项 ， 默 认 的 -march=native 将 选择 本 地 CPU 能 
支持 的 最 佳 配 置 ， 比 如 SSE4.2、AVX 等 。 建 议 选 择 默认 值 。 


Please specify optimization flags to use during compilation [Default is -m 


arch=native]: 


选择 是 否 使 用 jemalloc 作 为 默认 的 malloc 实 现 〈 仅 限 Linux) ， 建 议 选 
择 默认 设置 。 


Do you wish to use jemalloc as the malloc implementation? (Linux only) [Y/ 


n] 


然后 它 会 让 我 们 选择 是 否 开 启 对 Google Cloud Platform 的 支持 ， 这 个 
在 国内 一 般 是 访问 不 到 的 ， 有 需要 的 用 户 可 以 选择 支持 ， 通 常 选 N 即 可 : 

Do you wish to build TensorFlow with Google Cloud Platform support? 
[YNj 

它 会 询问 是 否 需要 支持 Hadoop File System， 如 果 有 读 取 HDFS 数 据 的 
需求 ， 请 选 y 选 项 ， 否 则 就 选 默认 的 N 即 可 : 

Do you wish to build TensorFlow with Hadoop File System support? 
[y/N] 


选择 是 否 开 启 XLA JIT 编 译 编译 功能 支持 。 这 里 XLA 是 TensorFlow 目 
前 实验 性 的 JIT (Just in Time) ~ AOT (Ahead of Time) 编译 优化 功能 ， 
还 不 太 成 熟 ， 有 探索 欲望 的 读者 可 以 党 试 开 启 。 


Do you wish to build TensorFlow with the XLA just-in-time compiler (experi 


mental)? [y/N] 
然后 它 会 让 我 们 选择 python 的 library 路 径 ， 这 里 依然 选择 anaconda 的 


Please input the desired Python library path to use. Default is 
[/home/wenjian/anaconda3/1lib/python3.5/site-packages | 


接着 选择 不 需要 使 用 GPU， 即 OpenCL 和 CUDA 全 部 选 N: 


Do you wish to build TensorFlow with OpenCL support? [y/N] 
Do you wish to build TensorFlow with CUDA support? [y/N] 


之 后 可 能 需要 下 载 一 些 依赖 库 的 文件 ， 完 成 后 configure 就 顺利 结束 
了 ， 接 下 来 使 用 编译 命令 执行 编译 : 


bazel build --copt=-march=native -c opt //tensorflow/tools/pip_package: build 
_pip_package 


编译 结束 后 ， 使 用 下 面 的 命令 生成 pip 安 装 包 : 


bazel-bin/tensorflow/tools/pip_package/build_pip_package 
/tmp/tensorflow_pkg 


最 后 ， 使 用 pip 命 令 安装 TensorFlow: 


pip install /tmp/tensorflow_pkg/tensorflow-1.0.@rcO@-cp35-cp35m-linux_x86_64. 
whl 


3.1.3 TensorFlow GPU 版 本 的 安装 


TensorFlow 的 GPU 版 本 安装 相对 复杂 。 目 前 TensorFlow 仅 对 CUDA 支 
持 较 好 ， 因 此 我 们 首先 需要 一 块 NVIDIA 显 卡 ，AMD 的 显卡 只 能 使 用 实 
验 性 支持 的 OpenCL， 效 果 不 是 很 好 。 接 下 来 ， 我 们 需要 安装 显卡 驱动 、 
CUDA 和 cuDNN。 


CUDA 是 NVIDIA 推 出 的 使 用 GPU 资源 进行 通用 计算 (Genral Purpose 
GPU) 的 SDK，CUDA 的 安装 包 里 一 般 集成 了 显卡 驱动 ， 我 们 直接 去 官网 
下 载 NVIDIA CUDA (https://developer.nvidia.com/cuda-toolkit) o 

在 安装 前 ， 我 们 需要 暂停 当前 NVIDIA 驱 动 的 X server， 如 果 是 远程 
连接 的 Linux 机 器 ， 可 以 使 用 下 面 这 个 命令 关闭 X server: 


sudo init 3 


之 后 ， 我 们 将 CUDA 的 安装 包 权 限 设 置 成 可 执行 的 ， 并 执行 安装 程 
序 : 


chmod u+x cuda 8.6.44 linux.run 


sudo ./cuda 8.0.44 linux.run 


接 下 来 我 们 正式 进入 CUDA 的 安装 过 程 ， 先 按 q 键 跳 过 开头 的 license 
说 明 ， 接 着 输入 accept 接 收 协 议 ， 然 后 按 y 键 选择 安装 驱动 程序 : 


Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 367.48? 
(y)es/(n)o/(q)uit: 


按 y 键 选择 安装 CUDA 并 确认 安装 路 径 ， 一 般 可 直接 使 用 默认 地 址 : 
Install the CUDA 8.0 Toolkit? 


(y)es/(n)o/(q)uit: 
Enter Toolkit Location 


[ default is /usr/local/cuda-8.@ ]: 


按 n 键 不 选择 安装 CUDA samples (我 们 只 是 通过 TensorFlow 调 用 
CUDA， 不 直接 写 CUDA 代 码 ) : 


Install the CUDA 8.6 Samples? 
(y)es/(n)o/(q)uit: 


最 后 等 待 安装 程序 完成 。 

接 下 来 安装 cuDNN ，cuDNN 是 NVIDIA 推 出 的 深度 学 习 中 CNN 和 
RNN 的 高 度 优化 的 实现 。 因 为 底层 使 用 了 很 多 先进 技术 和 接口 (没有 对 
外 开源 ) ， 因 此 比 其 他 GPU 上 的 神经 网 络 库 性 能 要 高 不 少 ， 目 前 绝 大 多 
数 的 深度 学 习 框 架 都 使 用 cuDNN 来 驱动 GPU 计算 。 我 们 先 从 官网 下 载 
cuDNN  (https://developer.nvidia.com/rdp/cudnn-download) ， 这 一 步 可 能 
需要 先 注 册 NVIDIA 的 账号 并 等 竺 审核 (需要 一 段 时 间 ) o 


接 下 来 再 安装 cuDNN ， 我 们 到 cuda 的 安装 目录 执行 解压 命令 : 


cd /usr/local 


sudo tar -xzvf ~/downloads/cudnn-8.0-linux-x64-v5.1.tgz 


这 样 就 完成 了 cuDNN 的 安装 ， 但 我 们 可 能 还 需要 在 系统 环境 里 设置 
CUDA 的 路 径 : 


vim ~/.bashrc 

export LD_LIBRARY_PATH=/usr/local/cuda-8.0/1ib64:/usr/local/cuda-8.0/extras/ 
CUPTI/1ib64:$LD_LIBRARY_PATH 

export CUDA_HOME=/usr/local/cuda-8.@ 

export PATH=/usr/local/cuda-8.0/bin:$PATH 


source ~/.bashrc 


接 下 来 ， 我 们 开始 安装 TensorFlow。 对 GPU 版 的 TensorFlow， 官 网 也 
提供 了 预 编译 的 包 ， 但 是 这 个 预 编译 版 对 本 地 的 各 种 依赖 环境 支持 可 能 
不 是 最 佳 的 ， 如 果 读 者 试用 过 没有 任何 兼容 性 问题 ， 可 以 直接 安装 预 编 
译 版 的 TensorFlow: 


export TF_BINARY URL=https://storage.googleapis.com/tensorflow/linux/gpu/ten 
sorflow_gpu-1.@.0rc@-cp35-cp35m-linux_x86_64.whl 


pip install --upgrade $TF_BINARY_URL 


如 果 预 编译 的 版 本 不 支持 当前 的 CUDA、cuDNN 版 本 ， 或 者 存在 其 
他 兼容 性 问题 ， 可 以 进行 编译 安装， 和 前 面 提 到 的 CPU 版 本 的 编译 安装 
类 似 ， 我 们 需要 先 安装 gcc 和 bazel， 接 下 来 下 载 TensorFlow 1.0.0-rc0 的 代 
码 ， 然 后 使 用 配置 程序 (./configure) 进行 编译 配置 ， 前 面 几 步 和 CPU 版 
本 的 安装 完全 一 致 ， 直 到 选择 是 否 支持 CUDA 这 一 步 : 


Do you wish to build TensorFlow with CUDA support? [y/N] 


我 们 按 y 键 选择 支持 GPU， 接 下 来 选择 指定 的 gcc 编 译 器 ， 一 般 选 默 
认 设 置 就 好 。 


Please specify which gcc should be used by nvcc as the host compiler. [Defau 


lt is /usr/bin/gcc]: 


接 下 来 选择 要 使 用 的 CUDA 版 本 、CUDA 安 装 路 径 、cuDNN 版 本 和 
cuUDNN 的 安装 路 径 ， 这 里 使 用 的 是 CUDA 8.0 版 本 ， 所 以 CUDA SDK 
Version 设 置 为 8.0， 路 径 设置 为 nsvlocalMcuda-8.0，cuDNN Version 设置 为 
5.1，cuDNN 路 径 也 设置 为 /usr/local/cuda-8.0: 


Please specify the Cuda SDK version you want to use, e.g. 7.6. [Leave empty 
to use system default]: 

Please specify the location where CUDA toolkit is installed. Refer to README. 
md for more details. [Default is /usr/local/cuda]: 

Please specify the Cudnn version you want to use. [Leave empty to use system 
default]: 

Please specify the location where cuDNN library is installed. Refer to READM 


E.md for more details. [Default is /usr/local/cuda]: 


最 后 将 选择 GPU 的 compute capability (CUDA 的 计算 兼容 性 ) , Ala 
的 GPU 可 能 有 不 同 的 compute capability， 我 们 可 以 在 官网 查 到 具体 数值 ， 
比如 GTX 1080 和 新 Titan X 是 6.1， 而 GTX 980 和 旧版 的 GTX Titan X= 
5.20 


Please note that each additional compute capability significantly increases 
your build time and binary size. 


[Default is: "3.5,5.2"]: 


至 此 ， 配 置 完成 ， 配 置 程 序 可 能 会 开始 下 载 对 应 的 需要 其 他 库 的 代 
码 仓库 ， 我 们 耐心 等 待 一 会 儿 就 好 。 


接 下 来 ， 开 始 编 译 GPU 版 本 的 TensorFlow， 执 行 下 面 这 个 命令 ， 注 意 
和 CPU 版 本 的 编译 相 比 ， 这 里 多 了 一 个 --config=cuda: 


bazel build --copt=-march=native -c opt --config=cuda //tensorflow/tools/pip 


_package:build_pip_package 


编译 大 概 需要 人 花费 一 段 时 间 ， 之 后 执行 命令 生成 pip 安 装 包 并 进行 安 


bazel-bin/tensorflow/tools/pip_package/build pip package /tmp/tensorflow_pkg 
pip install /tmp/tensorflow_pkg/tensorflow-1.0.@rcO@-cp35-cp35m-linux_x86_64. 
whl 
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别 手写 数字 


3.1 节 介绍 了 安装 TensorFlow， 接 下 来 我 们 就 以 一 个 机 器 学 习 领 域 的 
Hello World 任 务 一 一 MNIST 手 写 数 字 识 别 来 探索 TensorFlow。 MNIST?*! 
(Mixed National Institute of Standards and Technology database) 是 一 个 非 
常 简单 的 机 器 视觉 数据 集 ， 如 图 3-1 所 示 ， 它 由 几 万 张 28 像 素 x28 像 素 的 
手写 数字 组 成 ， 这 些 图 片 只 包含 灰 度 值 信息 。 我 们 的 任务 就 是 对 这 些 手 
与 数字 的 图 片 进行 分 类 ， 转 成 0~9 一 共 10 类 。 


SoH 


图 3-1 MNIST 手 写 数 字 图 片 示例 


首先 对 MNIST 数 据 进行 加 载 ，TensorFlow 为 我 们 提供 了 一 个 方便 的 封 
装 ， 可 以 直接 加 载 MNIST 数 据 成 我 们 期 望 的 格式 ， 在 ipython 命 令 行 或 者 
spyder 中 直接 运行 下 面 的 代码 。 本 节 代 码 主 要 来 自 TensorFlow 的 开源 实现 
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from tensorflow.examples.tutorials.mnist import input data 


mnist = input data.read data sets("MNIST data/", one_hot=True) 


然后 查看 mnist 这 个 数据 集 的 情况 ， 可 以 看 到 训练 集 有 55000 个 样本 ， 
ml 试 集 有 10000 个 样本 ， 同 时 验证 集 有 5000 个 样本 。 每 一 个 样本 都 有 它 对 
应 的 标注 信息 ， 即 label。 我 们 将 在 训练 集 上 训练 模型 ， 在 验证 集 上 检验 
效果 并 决定 何 时 完成 训练 ， 最 后 我 们 在 测试 集 评测 模型 的 效果 (可 通过 
准确 率 、 召 回 率 、F1-score 等 评测 ) 。 


print(mnist.train.images.shape, mnist.train.labels.shape) 
print(mnist.test.images.shape, mnist.test.labels.shape) 


print(mnist.validation.images.shape, mnist.validation.labels.shape) 


前 面 提 到 我 们 的 图 像 是 28 像 素 x28 像 素 大 小 的 灰 度 图 片 ， 如 图 3-2 所 
示 。 空 白 部 分 全 部 为 0， 有 笔迹 的 地 方 根据 颜色 深浅 有 0 到 1 之 间 的 取 值 。 
同时 ， 我 们 可 以 发 现 每 个 样本 有 784 维 的 特征 ， 也 就 是 28x28 个 点 的 展开 
成 1 维 的 结果 (28x28=784) 。 因 此 ， 这 里 丢弃 了 图 片 的 二 维 结构 方面 的 
信息 ， 只 是 把 一 张 图 片 变 成 一 个 很 长 的 1 维 向 量 。 读 者 可 能 会 问 ， 图 片 的 
空间 结构 信息 不 是 很 有 价值 吗 ， 为 什么 我 们 要 丢弃 呢 ? 因为 这 个 数据 集 
的 分 类 任务 比较 简单 ， 同 时 也 是 我 们 使 用 TensorFlow 的 第 一 次 尝试 ， 我 们 
不 需要 建立 一 个 太 复杂 的 模型 ， 所 以 简化 了 问题 ， 丢 弃 空间 结构 的 信 
息 。 后 面 的 章节 将 使 用 卷 积 神经 网 络 对 空间 结构 信息 进行 利用 ， 并 取得 
更 高 的 准确 率 。 我 们 将 图 片 展开 成 1 维 向 量 时 ， 顺 序 并 不 重要 ， 只 要 每 一 
张 图 片 都 是 用 同样 的 顺序 进行 展开 的 就 可 以 。 
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图 3-2 手写 数字 灰 度 信息 示例 


我 们 的 训练 数据 的 特征 是 一 个 55000x784 的 Tensor， 第 一 个 维度 是 图 
片 的 编号 ， 第 二 个 维度 是 图 片 中 像素 点 的 编号 ， 如 图 3-3 所 示 。 同 时 训练 
的 数据 Label 是 一 个 55000x10 的 Tensor， 如 图 3-4 所 示 ， 这 里 是 对 10 个 种 类 
进行 了 one-hot 编 码 ，Label 是 一 个 10 维 的 向 量 ， 只 有 1 个 值 为 1， 其 余 为 0。 
比如 数字 0， 对 应 的 Label 就 是 [1,0,0,0,0,0,0,0,0,0]， 数 字 5 对 应 的 Label 就 是 
[0,0,0,0,0,1,0,0,0,0]， 数 字 n 就 代表 对 应 位 置 的 值 为 1。 


55000 
图 3-3 ”MNIST 训 练 数据 的 特征 


55 
图 3-4 MNIST 训 | 练 数据 的 Label 


准备 好 数据 后 ， 接 下 来 就 要 设计 算法 了 ， 这 里 使 用 一 个 叫 作 Softmax 
Regression 的 算法 训练 手写 数字 识别 的 分 类 模型 。 我 们 的 数字 都 是 0 一 9 之 
间 的 ， 所 以 一 共有 10 个 类 别 ， 当 我 们 的 模型 对 一 张 图 片 进行 预测 时 ， 
Softmax Regression 会 对 每 一 种 类 别 估算 一 个 概率 : 比如 预测 是 数字 3 的 概 
率 为 80%， 是 数字 5 的 概率 为 5%， 最 后 取 概 率 最 大 的 那个 数字 作为 模型 的 
输出 结果 。 


当 我 们 处 理 多 分 类 任务 时 ， 通 常 需要 使 用 Softmax Regression 模 型 。 
即使 后 面 章节 的 卷 积 神经 网 络 或 者 循环 神经 网 络 ， 如 果 是 分 类 模型 ， 最 
后 一 层 也 同样 是 Softmax Regression。 它 的 工作 原理 很 简单 ， 将 可 以 判定 
为 某 类 的 特征 相 加 ， 然 后 将 这 些 特征 转化 为 判定 是 这 一 类 的 概率 。 上 述 
特征 可 以 通过 一 些 简 单 的 方法 得 到 ， 比 如 对 所 有 像素 求 一 个 加 权 和 ， 而 
权重 是 模型 根据 数据 自动 学 习 、 训 练 出 来 的 。 比 如 某 个 像素 的 灰 度 值 大 
代表 很 可 能 是 数字 n 时 ， 这 个 像素 的 权重 就 很 大 ; 反之 ， 如 果 某 个 像素 的 
灰 度 值 大 代表 不 太 可 能 是 数字 n 时 ， 这 个 像素 的 权重 就 可 能 是 负 的 。 图 3-5 
所 示 为 这 样 的 一 些 特征 ， 其 中 明亮 区 域 代表 负 的 权重 ， 灰 暗 区 域 代表 正 


的 权重 。 
0 1 2 3 4 
5 6 7 8 9 


图 3-5 不 同 数字 可 能 对 应 的 特征 权重 

我 们 可 以 将 这 些 特征 写成 如 下 公式 : i 代表 第 i 类 ，j 代表 一 张 图 片 的 
Bi 个 像素 。b, 是 bias， 顾 名 思 义 就 是 这 个 数据 本 身 的 一 些 倾向 ， 比 如 大 
部 分 数字 都 是 0， 那 么 0 的 特征 对 应 的 bias 就 会 很 大 。 


feature; = > W; jx; + bi 
j 


接 下 来 对 所 有 特征 计算 softmax， 结 果 如 下 。 简 单 说 就 是 都 计算 一 个 
exp 函 数 ， 然 后 再 进行 标准 化 〈 让 所 有 类 别 输出 的 概率 值 和 为 1) 。 


softmax(x)=normalize exp(x) 


其 中 判定 为 第 i 类 的 概率 就 可 由 下 面 的 公式 得 到 。 


exp(x;) 
Xj exp(x;) 


softmax(x); = 


我 们 先 对 各 个 类 的 特征 求 exzp 函 数 ， 然 后 对 它们 标准 化 ， 使 得 和 为 
1， 特 征 的 值 越 大 的 类 ， 最 后 输出 的 概率 也 越 大 ; 反之 ， 特 征 的 值 越 小 的 
类 ， 输 出 的 概率 也 越 小 。 最 后 的 标准 化 操作 保证 所 有 的 概率 没有 为 0 或 者 
为 负数 的 ， 同 时 它们 的 和 为 1， 也 满足 了 概率 的 分 布 。 如 果 将 整个 计算 过 
程 可 视 化 ， 结 果 如 图 3-6 所 示 。 
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图 3-6 Softmax Regression 的 流程 


接着 ， 如 果 将 图 3-6 中 的 连 线 变 成 公式 ， 结 果 如 图 3-7 所 示 ， 最 后 将 元 
素 相 乘 变 成 矩阵 乘法 ， 结 果 如 图 3-8 所 示 。 


yı Wi £1 + Wi2£2 + Wi, 3£3 + bı 
Y2| = softmax | W21 £1 + W22 £2 + W23£3 + bo 
Y3 W312, + W32 £2 + W33 £3 + bs 


图 3-7 Softmax Regression 元 素 乘法 示例 


yı Wii Wig Wis| |e by 

Y2| = softmax| | W21 W22 Wa3}-|2%2| + | bo 

Y3 Ws1 Ws2 Ws,s| |£3 bs 
图 3-8 Softmax Regression 矩阵 乘法 示例 


上 述 和 矩阵 运 算 表达 写成 公式 的 话 ， 可 以 用 下 面 这 样 简洁 的 一 行 表 
达 。 
y =softmax(Wx +b ) 


接 下 来 就 使 用 TensorFlow 实 现 一 个 Softmax Regression。 其 实在 Python 
中 ， 当 还 没有 TensorFlow 时 ， 通 常 使 用 NumpPy 做 密集 的 运算 操作 。 因 为 
NumPy 是 使 用 C 和 一 部 分 fortran 语 言 编 写 的 ， 并 且 调 用 openblas、mkl 等 矩 
阵 运算 库 ， 因 此 效率 很 高 。 其 中 每 一 个 运算 操作 的 结果 都 要 返回 到 Python 
中 ， 但 不 同 语言 之 间 传 输 数据 可 能 会 带 来 比较 大 的 延迟 。TensorFlow 同 样 
也 把 密集 的 复杂 运算 搬 到 Python 外 执行 ， 不 过 做 得 更 彻底 。TensorFlow 通 
过 定义 一 个 计算 图 将 所 有 的 运算 操作 全 部 运行 在 Python 外 面 ， 比 如 通过 
C++ 运行 在 CPU 上 或 者 通过 CUDA 运 行 在 GPU 上 ， 而 不 需要 每 次 把 运算 完 
的 数据 传 回 Python。 

首先 载 入 TensorFlow 库 ， 并 创建 一 个 新 的 InteractiveSession， 使 用 这 
个 命令 会 将 这 个 session 注 册 为 默认 的 session， 之 后 的 运算 也 默认 跑 在 这 个 
Session 里， 不 同 session 之 间 的 数据 和 运算 应 该 都 是 相互 独立 的 。 接 下 来 创 
建 一 个 Placeholder， 即 输入 数据 的 地 方 。Placeholder 的 第 一 个 参数 是 数据 
类 型 ， 第 二 个 参数 [None,784] 代 表 tensor 的 shape， 也 就 是 数据 的 尺寸 ， 这 
里 None 代 表 不 限 条 数 的 输入 ，784 代 表 每 条 输入 是 一 个 784 维 的 向 量 。 


import tensorflow as tf 
sess = tf.InteractiveSession() 


x = tf.placeholder(tf.float32, [None, 784]) 


接 下 来 要 给 Softmax Regression {R 2 BY weights #0 biases fl Variable 
对 象 ， 第 1 章 中 提 到 Variable 是 用 来 存储 模型 参数 的 。 不 同 于 存储 数据 的 
tensor 一 旦 使 用 掉 就 会 消失 ，Variable 在 模型 训练 迭代 中 是 持久 化 的 (比如 
一 直 存 放 在 显存 中 ) ， 它 可 以 长 期 存在 并 且 在 每 轮 迭 代 中 被 更 新 。 我 们 
把 weights 和 biases 全 部 初始 化 为 0， 因 为 模型 训练 时 会 自动 学 习 合 适 的 
值 ， 所 以 对 这 个 简单 模型 来 说 初始 值 不 太 重 要 。 不 过 对 复杂 的 卷 积 网 


络 、 循 环 网 络 或 者 比较 深 的 全 连接 网 络 ， 初 始 化 的 方法 就 比较 重要 ， 甚 
至 可 以 说 至 关 重 要 。 注 意 这 里 W 的 shape 是 [784,10]，784 是 特征 的 维 数 ， 
而 后 面 的 10 代 表 有 10 类 ， 因 为 Label 在 one-hot 编 码 后 是 10 维 的 向 量 。 


W = tf.Variable(tf.zeros([784, 10])) 
b = tf.Variable(tf.zeros([10])) 


接 下 来 就 要 实现 Softmax Regression 算 法 ， 我 们 回忆 一 下 上 面 提 到 的 
公式 : y =softmax(Wx +b )。 改 写成 TensorFlow 的 语言 就 是 下 面 这 行 代码 。 


y = tf.nn.softmax(tf.matmul(x,W) + b) 


Softmax 是 tf.nn 下 面 的 一 个 水 数 ， 而 tf.nn 则 包含 了 大 量 神 经 网 络 的 组 
件 ，tf.matmul 是 TensorFlow 中 的 和 矩阵 乘法 函数 。 我 们 使 用 一 行 简单 的 代 
码 就 定义 了 Softmax Regression ， 语 法 和 直接 写 数 学 公式 很 像 。 然 而 
TensorFlow 最 厉害 的 地 方 还 不 是 定义 公式 ， 而 是 将 forward 和 backward 的 内 
容 都 自动 实现 〈 无 论 CPU 或 是 GPU 上 ) ， 只 要 接 下 来 定义 好 loss， 训 练 时 
将 会 自动 求 导 并 进行 梯度 下 降 ， 完 成 对 Softmax Regression 模 型 参数 的 自 
动 学 习 。 

为 了 训练 模型 ， 我 们 需要 定义 一 个 loss function 来 描述 模型 对 问题 的 
分 类 精度 。Loss 越 小 ， 代 表 模 型 的 分 类 结果 与 真实 值 的 偏差 越 小 ， 也 就 
是 说 模型 越 精确 。 我 们 一 开始 给 模型 填充 了 全 零 的 参数 ， 这 样 模 型 会 
一 个 初始 的 loss， 而 训练 的 目的 是 不 断 将 这 个 loss 减 小 ， 直 到 达到 一 个 全 
局 最 优 或 者 局 部 最 优 解 。 对 多 分 类 问题 ， 通 常 使 用 cross-entropy 作 为 loss 
function。 Cross-entropy 最 早出 自信 息 论 (Information Theory) 中 的 信息 
i (与 压缩 比率 等 有 关 ) ， 然 后 被 用 到 很 多 地 方 ， 包 括 通信 、 纠 错 码 、 
博 弃 论 、 机 器 学 习 等 。Cross-entropy 的 定义 如 下 ， 其 中 > 是 预测 的 概率 分 
布 ，y' 是 真实 的 概率 分 布 〈 即 Label 的 one-hot 编 码 ) ， 通 常 可 以 用 它 来 判 
断 模型 对 真实 概率 分 布 估计 的 准确 程度 。 


Hy,(y) = 一 > y'ilog(yi) 


在 TensorFlow 中 定义 cross-entropy 也 很 容易 ， 代 人 码 如 下 。 


y_ = tf.placeholder(tf.float32, [None, 10]) 
cross entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y), 


reduction_indices=[1])) 


先 定 义 一 个 placeholder ， 输 入 是 真实 的 label ， 用 来 计算 cross- 
entropy o 这 里 的 y x tf.log(y) 也 就 是 前 面 公式 中 的 y' log(y, ), 


tf.reduce_sum 也 就 是 求 和 的 >>， 而 tf.reduce_mean 则 用 来 对 每 个 batch 数 据 结 
果 求 均值 。 


现在 我 们 有 了 算法 Softmax Regression 的 定义 ， 又 有 了 损失 函数 cross- 
entropy 的 定义 ， 只 需要 再 定义 一 个 优化 算法 即 可 开始 训练 。 我 们 采用 党 
见 的 随机 梯度 下 降 SGD (Stochastic Gradient Descent) 。 定 义 好 优化 算法 
后 ，TensorFlow 就 可 以 根据 我 们 定义 的 整个 计算 图 (我 们 前 面 定 义 的 各 个 
公式 已 经 自动 构成 了 计算 图 ) 自动 求 导 ， 并 根据 反 向 传播 (Back 
Propagation) 算法 进行 训练 ， 在 每 一 轮 迭 代 时 更 新 参数 来 减 小 loss。 在 后 
台 TensorFlow 会 自动 添加 许多 运算 操作 (Operation) 来 实现 刚才 提 到 的 反 
向 传播 和 梯度 下 降 ， 而 给 我 们 提供 的 就 是 一 个 封装 好 的 优化 器 ， 只 需要 
SB MR KN feed 数据 给 它 就 好 。 我 们 直接 调用 
tf.train.GradientDescentOptimizer， 并 设置 学 习 速率 为 0.5， 优 化 目标 设 定 
为 cross-entropy， 得 到 进行 训练 的 操作 train_step。 当 然 ，TensorFlow 中 也 
有 很 多 其 他 的 优化 器 ， 使 用 起 来 也 非常 方便 ， 只 需要 修改 六 数 名 即 可 。 


train_step = 
tf.train.GradientDescentOptimizer(0.5).minimize(cross_entropy) 


下 一 步 使 用 TensorFlow 的 全 局 参数 初始 化 器 
tf.global_variables_initializer， 并 直接 执行 它 的 run 方 法 。 


tf.global_variables_initializer().run() 


最 后 一 步 ， 我 们 开始 迭代 地 执行 训练 操作 train_step。 这 里 每 次 都 随 
机 从 训练 集中 抽取 100 条 样本 构成 一 个 mini-batch， 并 feed 给 placeholder， 
然后 调用 train_step 对 这 些 样本 进行 训练 。 使 用 一 小 部 分 样本 进行 训练 称 
为 随机 梯度 下 降 ， 与 每 次 使 用 全 部 样本 的 传统 的 梯度 下 降 对 应 。 如 果 每 
次 训练 都 使 用 全 部 样本 ， 计 算 量 太 大 ， 有 时 也 不 容易 跳出 局 部 最 优 。 
此 ， 对 于 大 部 分 机 器 学 习 问 题 ， 我 们 都 只 使 用 一 小 部 分 数据 进行 随机 梯 
度 下 降 ， 这 种 做 法 绝 大 多 数 时 候 会 比 全 样本 训练 的 收敛 速度 快 很 多 。 


for i in range(1666 ) : 
batch xs, batch_ys = mnist.train.next_batch(166) 
train_step.run({x: batch_xs, y_: batch ys}) 


现在 我 们 已 经 完成 了 训练 ， 接 下 来 就 可 以 对 模型 的 准确 率 进 行 验 
证 。 下 面 代 码 中 的 tf.argmax 是 从 一 个 tensor 中 寻找 最 大 值 的 序号 ， 
tf.argmax(y,1) 就 是 求 各 个 预测 的 数字 中 概率 最 大 的 那 一 个 ， 而 
tf.argmax(y_,1) 则 是 找 样 本 的 真实 数字 类 别 。 而 tf.equal 方 法 则 用 来 判断 预 
测 的 数字 类 别 是 否 就 是 正确 的 类 别 ， 最 后 返回 计算 分 类 是 否 正确 的 操作 


correct_preditiono 
correct_prediction = tf.equal(tf.argmax(y,1),tf.argmax(y_,1)) 


我 们 统计 全 部 样本 预测 的 accuracy， 这 里 需要 先 用 tf.cast 将 之 前 
correct_prediction 输 出 的 bool 值 转换 为 float32， 再 求 平均 。 


accuracy = tf.reduce_mean(tf.cast(correct_prediction,tf.float32)) 

我 们 将 测试 数据 的 特征 和 Label 输 入 评测 流程 accuracy， 计 算 模型 在 测 
试 集 上 的 准确 率 ， 再 将 结果 打印 出 来 。 使 用 Softmax Regression 对 MNIST 
数据 进行 分 类 识别 ， 在 测试 集 上 平均 准确 率 可 达 92% 左 右 。 

print(accuracy.eval({x: mnist.test.images,y_: mnist.test.labels})) 

通过 上 面 的 这 个 简单 例子 ， 我 们 使 用 TensorFlow 实 现 了 一 个 简单 的 机 
器 学 习 算法 Softmax Regression， 这 可 以 算 作 是 一 个 没有 隐 含 层 的 最 浅 的 
神经 网 络 。 我 们 来 回忆 一 下 整个 流程 ， 我 们 做 的 事情 可 以 分 为 4 个 部 分 。 

(1) 定义 算法 公式 ， 也 就 是 神经 网 络 forward 时 的 计算 。 
(2) 定义 loss， 选 定 优化 器 ， 并 指定 优化 器 优化 loss。 
(3) 迭代 地 对 数据 进行 训练 。 

(4) 在 测试 集 或 验证 集 上 对 准确 率 进 行 评测 。 

这 几 个 步骤 是 我 们 使 用 TensorFlow 进 行 算 法 设计 、 训 练 的 核心 步骤 ， 
也 将 会 贯穿 之 后 其 他 类 型 神经 网 络 的 章节 。 需 要 注意 的 是 ，TensorFlow 和 
Spark 类 似 ， 我 们 定义 的 各 个 公式 其 实 只 是 Computation Graph， 在 执行 这 
行 代 码 时 ， 计 算 还 没有 实际 发 生 ， 只 有 等 调用 run 方 法 ， 并 feed 数据 时 计 
算 才 真正 执行 。 比 如 cross_entropy、train_step、accuracy 等 都 是 计算 图 中 


的 节点 ， 而 并 不 是 数据 结果 ， 我 可 以 通过 调用 run 方 法 执行 这 些 节点 或 者 
说 运算 操作 来 获取 结果 。 

我 们 再 来 看 看 Softmax Regression 达 到 的 效果 ， 准 确 率 为 92%， 虽 然 
是 一 个 还 不 错 的 数字 ， 但 是 还 达 不 到 实用 的 程度 。 手 写 数 字 的 识别 的 主 
要 应 用 场景 是 识别 银行 支票 ， 如 果 准 确 率 不 够 高 ， 可 能 会 引起 严重 的 后 
果 。 后 面 我 们 将 讲解 使 用 多 层 感 知 机 和 卷 积 网 络 ， 来 解决 MNIST 手 写 数 
字 识 别 问题 的 方法 。 事 实 上 ，MNIST 数 字 识 别 也 算是 卷 积 神经 网 络 的 首 
个 经 典 应 用 ，LeCun 的 LeNet5 在 20 世 纪 90 年 代 就 已 经 提出 ， 而 且 可 以 达到 
99% 的 准确 率 ， 可 以 说 是 领先 时 代 的 重大 突破 。 可 惜 后 面 因 为 计算 能 力 制 
约 ， 卷 积 神经 网 络 的 研究 一 直 没 有 太 大 突破 ， 神 经 网 络 也 一 度 被 SVM 等 
超越 而 陷入 低谷 。 在 20 世 纪 初 的 很 多 年 里 ， 神 经 网 络 几乎 被 大 家 遗忘 ， 
相关 研究 一 直 不 受 重 视 ， 这 一 段 是 深度 学 习 的 一 次 冰期 (神经 网 络 的 研 
究 一 共有 三 次 大 起 大 落 ) 。2006 年 ，Hinton 等 人 提出 逐 层 预 训练 来 初始 化 
权重 的 方法 及 利用 多 层 RBM 扒 赤 的 神经 网 络 DBN ， 神 经 网 络 才 逐 渐 重 回 
大 家 视野 。Hinton 揭 示 了 神经 网 络 的 最 大 价值 在 于 对 特征 的 自动 提取 和 抽 
象 ， 它 免 去 了 人 工 提取 特征 的 烦琐 ， 可 以 自动 找 出 复杂 且 有 效 的 高 阶 特 
征 。 这 一 点 类 似 人 的 学 习 过 程 ， 先 理解 简单 概念 ， 再 逐渐 递 进 到 复杂 概 
念 ， 神 经 网 络 每 加 深 一 层 ， 可 以 提取 的 特征 就 更 抽象 。 随 着 2012 年 Hinton 
学 生 的 研究 成 果 AlexNet 以 巨大 优势 摘 得 了 当年 ImageNet ILSVRC 比 赛 的 
第 一 名 ， 深 度 学 习 的 热潮 被 再 次 点 燃 。ImageNet 是 一 个 非常 闭 名 的 图 片 
数据 集 ， 大 致 有 几 百 万 张 图片 和 1000 类 (大 部 分 是 动物 ， 约 有 几 百 类 的 
动物 ) 。 官 方 会 每 年 举办 一 次 大 型 的 比赛 ， 有 图 片 分 类 、 目 标 位 置 检 
测 、 视 频 检 测 、 图 像 分 割 等 任务 。 在 此 之 前 ， 人 参赛 读物 都 是 做 特征 工 
程 ， 然 后 使 用 SVM 等 模型 进行 分 类 。 而 AlexNet 和 夺冠 后 ， 每 一 年 InageNet 
ILSVRC 的 冠军 都 是 依靠 深度 学 习 、 卷 积 神经 网 络 ， 而 且 趋 势 是 层 数 越 
深 ， 效 果 越 好 。2015 年 ， 微 软 研 究 院 提出 的 ResNet 甚 至 达到 惊人 的 152 层 
深 ， 并 在 分 类 准确 率 上 有 了 突破 性 的 进展 。 至 此 ， 深 度 学 习 在 复杂 机 器 
学 习 任 务 上 的 巨大 优势 正式 确立 ， 现 在 基本 在 任何 问题 上 ， 仔细 设计 的 
神经 网 络 都 可 以 取得 比 其 他 算法 更 好 的 准确 率 和 泛 化 性 ， 前 提 是 有 足够 
多 的 数据 。 

接 下 来 的 章节 ， 我 们 会 继续 使 用 其 他 算法 在 MNIST 数 据 集 上 进行 训 
练 ， 事 实 上 ， 现 在 的 Softmax Regression 加 入 隐 含 层 变 成 一 个 正统 的 神经 
网 络 后 ， 再 结合 Dropout、Adagrad、ReLU 等 技术 准确 率 就 可 以 达到 
98%。 引 入 卷 积 层 、 池 化 层 后 ， 也 可 以 达到 99% 的 正确 率 。 而 目前 基于 卷 
积 神经 网 络 的 state-of-the-art 的 方法 已 经 可 以 达到 99.8% 的 正确 率 。 
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传统 机 器 学 习 任务 很 大 程度 上 依赖 于 好 的 特征 工程 ， 比 如 对 数值 
型 、 日 期 时 间 型 、 种 类 型 等 特征 的 提取 。 特 征 工程 往往 是 非常 耗 时 耗 力 
的 ， 在 图 像 、 语 音 和 视频 中 提取 到 有 效 的 特征 就 更 难 了 ， 工 程 师 必须 在 
这 些 领域 有 非常 深入 的 理解 ， 并 且 使 用 专业 算法 提取 这 些 数 据 的 特征 。 
深度 学 习 则 可 以 解决 人 工 难以 提取 有 效 特征 的 问题 ， 它 可 以 大 大 缓解 机 
器 学 习 模 型 对 特征 工程 的 依赖 。 深 度 学 习 在 早期 一 度 被 认为 是 一 种 无 监 
督 的 特征 学 习 (Unsupervised Feature Learning) ， 模 仿 了 人 脑 的 对 特征 逐 
层 抽象 提取 的 过 程 。 这 其 中 有 两 点 很 重要 : 一 是 无 监督 学 习 ， 即 我 们 不 
需要 标注 数据 就 可 以 对 数据 进行 一 定 程 度 的 学 习 ， 这 种 学 习 是 对 数据 内 
容 的 组 织 形 式 的 学 习 ， 提 取 的 是 频繁 出 现 的 特征 ; 二 是 逐 层 抽象 ， 特 征 
是 需要 不 断 抽象 的 ， 就 像 人 总 是 从 简单 基础 的 概念 开始 学 习 ， 再 到 复杂 
的 概念 。 学 生 们 要 从 加 减 乘除 开始 学 起 ， 再 到 简单 函数 ， 然 后 到 微 积 
分 ， 深 度 学 习 也 是 一 样 ， 它 从 简单 的 微观 的 特征 开始 ， 不 断 抽象 特征 的 
层级 ， 逐 渐 往 复杂 的 宏观 特征 转变 。 

例如 在 图 像 识别 问题 中 ， 假 定 我 们 有 许多 汽车 的 图 片 ， 要 如 何 判 定 
这 些 图 片 是 汽车 呢 ? 如 果 我 们 从 像素 级 特征 开始 进行 训练 分 类 器 ， 那 么 
绝 大 多 数 算法 很 难 有 效 地 工作 。 如 果 我 们 提取 出 高 阶 的 特征 ， 比 如 汽车 
的 车 轮 、 汽 车 的 车 窗 、 汽 车 的 车 身 ， 那 么 使 用 这 些 高 阶 特征 便 可 以 非常 
准确 地 对 图 片 进 行 分 类 ， 这 就 是 高 阶 特征 的 效果 。 不 过 任何 高 阶 特征 都 
是 由 底层 特征 组 合 而 成 的 ， 比 如 车 轮 由 橡胶 轮胎 、 车 轴 、 轮 辐 等 组 成 。 
而 其 中 每 一 个 组 件 都 是 由 更 小 单位 的 特征 组 合 而 成 的 ， 比 如 橡胶 轮胎 由 
许多 黑色 的 同心 圆 组 成 ， 而 这 些 同 心 圆 也 都 由 许多 圆 缴 曲线 组 成 ， 圆 级 
曲线 都 由 像素 组 成 。 我 们 将 前 面 的 过 程 逆 过 来 ， 将 一 张 图片 的 原始 像素 
慢 慢 抽象 ， 从 像素 组 成 点 、 线 ， 再 将 点 、 线 组 合成 小 零件 ， 再 将 小 零件 
组 成 车 轮 、 车 窗 、 车 身 等 高 阶 特别 ， 这 便 是 深度 学 习 在 训练 过 程 中 所 做 
的 特征 学 习 。 


早年 由 学 者 们 研究 稀疏 编码 (Sparse Coding) 时 ， 他 们 收集 了 大 量 黑 
白 风 景 照 ， 并 从 中 提取 了 许多 16 像 素 x16 像 素 的 图 像 碎 片 。 他 们 发 现 几乎 
所 有 的 图 像 碎片 都 可 以 由 64 种 正 交 的 边 组 合 得 到 ， 如 图 4-1 所 示 ， 并 且 组 
合 出 一 张 图 像 碎 片 需要 的 边 的 数量 是 很 少 的 ， 即 稀疏 的 。 学 者 同时 发 现 
声音 也 存在 这 种 情况 ， 他 们 从 大 量 的 未 标注 音频 中 发 现 了 20 种 基本 结 
构 ， 绝 大 多 数 声 音 可 以 由 这 些 基 本 结构 线性 组 合 得 到 。 这 其 实 就 是 特征 
的 稀疏 表达 ， 使 用 少量 的 基本 特征 组 合 拼装 得 到 更 高 层 抽象 的 特征 。 通 
常 我 们 也 需要 多 层 的 神经 网 络 ， 对 每 一 层 神 经 网 络 来 说 ， 前 一 层 的 输出 
都 是 未 加 工 的 像素 ， 而 这 一 层 则 是 对 像素 进行 加 工 组织 成 更 高 阶 的 特征 
\ 即 前 面 提 到 的 将 边 组 合成 图 像 碎 片 ) 。 
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[a,, .-, a64] = [0, 0, ..., 0, 0.8, 0, ..., 0, 0.3, 0, ..., 0, 0.5, 0] 
(feature representation) 
图 4-1 图 像 碎片 可 由 少量 的 基本 结构 稀疏 表达 


我 们 来 看 一 下 实际 的 例子 。 假 如 我 们 有 许多 基本 结构 ， 比 如 指向 各 
个 方向 的 边 、 白 块 、 黑 块 等 ， 如 图 4-2 所 示 ， 我 们 可 以 通过 不 同方 式 组 合 
出 不 同 的 高 阶 特 征 ， 并 最 终 拼 出 不 同 的 目标 物体 。 这 些 基 本 结构 就 是 
basis， 在 人 脸 识 别 任务 中 ， 我 们 可 以 使 用 它们 拼 出 人 脸 的 不 同 器 官 ， 比 
如 鼻子 、 嘴 、 眼 睛 、 眉 毛 、 脸 颊 等 ， 这 些 器 官 又 可 以 向 上 一 层 拼 出 不 同 
样式 的 人 脸 ， 最 后 模型 通过 在 图 片 中 匹配 这 些 不 同样 式 的 人 脸 《 即 高 阶 
特征 ) 来 进行 识别 。 同 样 ，basis 可 以 拼 出 汽车 上 不 同 的 组 件 ， 最 终 拼 出 
各 式 各 样 的 车 型 ;也 可 以 拼 出 大 象 身 体 的 不 同 部 位 ， 最 后 组 成 各 种 尺 
T, mõh MEIKAR; 还 可 以 拼 出 椅子 的 若 、 座 、 靠 育 等 ， 最 后 组 成 
不 同 款式 的 椅子 。 特 征 是 可 以 不 断 抽 象 转 为 高 一 级 的 特征 的 ， 那 我 们 如 
何 找到 这 些 基 本 结构 ， 然 后 如 何 抽象 呢 ? 如果 我 们 有 很 多 标注 的 效 据 ， 
则 可 以 训练 一 个 深层 的 神经 网 络 。 如 果 没 有 标注 的 数据 呢 ? 这 种 情况 


下 ， 我 们 依然 可 以 使 用 无 监督 的 自 编 码 器 来 提取 特征 。 自 编码 器 
(AutoEncoder) ， 顾 名 思 义 ， 即 可 以 使 用 自身 的 高 阶 特征 编码 自己 。 自 
编码 器 其 实 也 是 一 种 神经 网 络 ， 它 的 输入 和 输出 是 一 致 的 ， 它 借助 稀 玻 
编码 的 思想 ， 目 标 是 使 用 入 玉 的 一 些 高 阶 特征 重新 组 合 来 重 构 自己 。 因 
此 ， 它 的 特点 非常 明显 : 第 一 ， 期 望 输入 /输出 一 致 } 第 二 ， 和 希望 使 用 高 
阶 特征 来 重 构 自己 ， 而 不 只 是 复制 像素 点 。 


Features learned from training on different object classes. 
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Hinton 教 授 在 Science R# XC & Reducing the dimensionality of data with 
neural networks > ， 讲 解 了 使 用 目 编码 器 对 数据 进行 降 维 的 方法 。Hinton 
还 提出 了 基于 深度 信念 网 络 (Deep Belief Networks’ ，DBN ， 由 多 层 
RBM# SM) 可 使 用 无 监督 的 逐 层 训练 的 贪心 算法 ， 为 训练 很 深 的 网 
络 提供 了 一 个 可 行 方 案 : 我 们 可 能 很 难 直 接 训练 极 深 的 网 络 ， 但 是 可 以 
用 无 监督 的 逐 层 训练 提取 特征 ， 将 网 络 的 权重 初始 化 到 一 个 比较 好 的 位 
置 ， 辅 助 后 面 的 监督 训练 。 无 监督 的 逐 层 训练 ， 其 思想 和 自 编 码 器 
(AutoEncoder) 非常 相似 。 后 者 的 目标 是 让 神经 网 络 的 输出 能 和 原始 输 
入 一 致 ， 相 当 于 学 习 一 个 恒等式 y =x ， 如 图 4-3 所 示 。 自 编码 器 的 输入 节 
点 和 输出 节点 的 数量 是 一 致 的 ， 但 如 果 只 是 单纯 地 逐个 复制 输入 节点 则 
没有 意义 ， 像 前 面 提 到 的 ， 自 编码 器 通常 希望 使 用 少量 黎 疏 的 高 阶 特征 
来 重 构 输入 ， 所 以 我 们 可 以 加 入 几 种 限制 |。 


(1) 如 果 限制 中 间 隐 和 含 层 节点 的 数量 ， 比 如 让 中 间 隐 含 层 节 点 的 数 
量 小 于 输入 /输出 点 的 数量 ， 就 相当 于 一 个 降 维 的 过 程 。 此 时 已 经 不 可 
能 出 现 复 制 所 有 节 点 的 情况 ， 因 为 中 间 节 点 数 小 于 输入 市 点 数 ， 那 只 能 


学 习 数 据 中 最 重要 的 特征 复原 ， 将 可 能 不 太 相 关 的 内 容 去 除 。 此 时 ， 如 
果 再 给 中 间 隐 含 层 的 权重 加 一 个 L1 的 正则 ， 则 可 以 根据 惩罚 系数 控制 隐 
SPREE, PARMA, SRNR, Rie A 
( 非 零 权重 ) 的 特征 数量 越 少 。 


(2) 如 果 给 数据 加 入 噪声 ， 那 么 就 是 Denoising AutoEncoder (AMR 
自 编码 器 ) ， 我 们 将 从 噪声 中 学 习 出 数据 的 特征 。 同 样 ， 我 们 也 不 可 能 
完全 复制 节点 ， 完 全 复制 并 不 能 去 除 我 们 添加 的 噪声 ， 无 法 完全 复原 数 
据 。 所 以 唯 有 学 习 数 据 频繁 出 现 的 模式 和 结构 ， 将 无 规律 的 噪声 略 去 ， 
才 可 以 复原 数据 。 


去 噪 自 编码 器 中 最 常 使 用 的 噪声 是 加 性 高 斯 噪声 (Additive Gaussian 
Noise, AGN) ， 其 结构 如 图 4-3 所 示 。 当 然 也 可 以 使 用 Masking Noise, 
即 有 随机 遮挡 的 噪声 ， 这 种 情况 下 ， 图 像 中 的 一 部 分 像素 被 置 为 0， 模 型 
需要 从 其 他 像素 的 结构 推测 出 这 些 被 遮挡 的 像素 是 什么 ， 因 此 模型 依然 
需要 学 习 图 像 中 抽象 的 高 阶 特征 。 


Layer L, Layer L, 


Layer L, 


图 4-3” 自 编码 器 结构 图 ， 学 习 目 标 是 使 用 少量 高 阶 特征 重 构 输入 


如 果 目 编码 器 的 隐 含 层 只 有 一 层 ， 那 么 其 原理 类 似 于 主 成 分 分 析 
(PCA) 。Hinton 提 出 的 DBN 模 型 有 多 个 隐 含 层 ， 每 个 隐 含 层 都 是 限制 性 
玻 尔 兹 曼 机 RBM (Restricted Boltzman Machine， 一 种 具有 特殊 连接 分 布 
的 神经 网 络 ) 。DBN 训 练 时 ， 需 要 先 对 每 两 层 间 进 行 无 监督 的 预 训练 
(pre-training) ， 这 个 过 程 其 实 就 相当 于 一 个 多 层 的 自 编码 器 ， 可 以 将 整 


个 网 络 的 权重 初始 化 到 一 个 理想 的 分 布 。 最 后 ， 通 过 反 向 传播 算法 调整 
模型 权重 ， 这 个 步骤 会 使 用 经 过 标注 的 信息 来 做 监督 性 的 分 类 训练 。 当 
年 DBN 给 训练 深层 的 神经 网 络 提 供 了 可 能 性 ， 它 能 解决 网 络 过 深 带 来 的 
梯度 弥散 (Gradient Vanishment) 问题 ， 让 训练 变 得 容易 。 和 简单 地 说 ， 
Hinton 的 思路 就 是 先 用 自 编码 器 的 方法 进行 无 监督 的 预 训练 ， 提 取 特 征 并 
初始 化 权重 ， 然 后 使 用 标注 信息 进行 监督 式 的 训练 。 当 然 自 编码 器 的 作 
用 不 仅 局 限于 给 监督 训练 做 预 训 练 ， 直 接 使 用 自 编码 器 进行 特征 提取 和 
分 析 也 是 可 以 的 。 现 实 中 数据 最 多 的 还 是 未 标注 的 数据 ， 因 此 自 编码 器 
拥有 许多 用 武之 地 。 


4.2 ”TensorFlow 实 现 自 编码 器 


下 面 我 们 就 开始 实现 最 具 代 表 性 的 去 品目 编码 器 。 去 品 自 编码 器 的 
使 用 学 围 最 广 也 最 通用 。 而 其 他 几 种 自 编码 器 ， 读 者 可 以 对 代码 加 以 修 
改 上 自行 实现 ， 其 中 无 噪声 的 自 编码 器 只 需要 去 挤 噪 声 ， 并 保证 隐 含 层 节 
点 小 于 输入 层 节 点 ;Masking Noise 的 上 自 编码 器 只 需要 将 高 斯 噪声 改 为 随 
机 遮挡 噪声 ; Variational AutoEncoder (VAE) 则 相对 复杂 ，VAE 对 中 间 节 
点 的 分 布 有 强 假 设 ， 拥 有 额外 的 损失 项 ， 且 会 使 用 特殊 的 SGVB 
(Stochastic Gradient Variational Bayes) 算法 进行 训练 。 目 前 VAE 还 在 生 
成 模型 中 发 挥 了 很 大 的 作用 。 


这 里 我 们 依然 是 先导 入 常用 库 NumPy， 还 有 Scikit-learn 中 的 
preprocessing 模 块 ， 这 是 一 个 对 数据 进行 预 处 理 的 常用 模块 ， 之 后 我 们 会 
使 用 其 中 的 数据 标准 化 功能 。 同 时 本 节 依 然 使 用 MNIST 数 据 集 ， 因 此 也 
导入 TensorFlow 中 MNIST 数 据 的 加 载 模块 。 本 节 代 码 主 要 来 自 TensorFlow 
的 开源 实现 ”。 


import numpy as np 
import sklearn.preprocessing as prep 
import tensorflow as tf 


from tensorflow.examples.tutorials.mnist import input data 


我 们 的 自 编码 器 中 会 使 用 到 一 种 参数 初始 化 方法 xavier initialization 
， 需 要 先 定 义 好 它 。 Xavier 初 始 化 器 在 Caffe 的 早期 版 本 中 被 频繁 使 用 ， 
它 的 特点 是 会 根据 某 一 层 网 络 的 输入 、 和 输出 节点 数量 自动 调整 最 合适 的 


分 布 。Xaiver Glorot 和 深度 学 习 三 巨头 之 一 的 Yoshua Bengio 在 一 篇 论文 中 
指出 ， 如 果 深 度 学 习 模 型 的 权重 初始 化 得 太 小 ， 那 信号 将 在 每 层 间 传递 
时 逐渐 缩小 而 难以 产生 作用 ， 但 如 果 权 重 初始 化 得 太 大 ， 那 信号 将 在 每 
层 间 传 递 时 逐渐 放大 并 导致 发 散 和 失效 。 而 Xaiver 初 始 化 器 做 的 事情 就 是 
让 权重 被 初始 化 得 不 大 不 小 ， 正 好 合适 。 从 数学 的 角度 分 析 ，Xavier 就 是 
让 权重 满足 0 均值 ， 同时 方差 为 二 一 ， 分 布 可 以 用 均匀 分 布 或 者 高 斯 分 
布 。 如 下 代码 所 示 ， 我 们 通过 ttrandom_uniform 创建 了 一 个 
(- = =) 范围 内 的 均匀 分 布 ， 而 它 的 方差 根据 公式 D(x )=(max- 
min ) ° /12 刚 好 等 于 二 一 因此 ， 这 里 实现 的 就 是 标准 的 均匀 分 布 的 
Xaiver 初 始 化 器 ， 其 中 fan_in 是 输入 节点 的 数量 ，fan_out 是 输出 节点 的 数 
量 。 


def xavier_init(fan_in, fan_out, constant = 1): 
low = -constant * np.sqrt(6.@ / (fan_in + fan_out)) 
high = constant * np.sqrt(6.@ / (fan_in + fan_out)) 
return tf.random_uniform((fan_in, fan_out), 
minval = low, maxval = high, 


dtype = tf.float32) 


下 面 我 们 就 开始 定义 一 个 去 噪 自 编 码 的 class， 方 便 以 后 使 用 。 这 个 
类 会 包含 一 个 构建 国 数 _init_0， 还 有 一 些 常 用 的 成 员 冰 数 ， 因 此 会 比 
较 长 ， 下 面 会 分 为 几 个 代码 段 讲解 ， 我 们 先 来 看 构建 水 数 。 

init _ 水 数 包 含 这 样 几 个 输入 : n_input (输入 变量 数 ) 、n_hidden 
( 隐 含 层 节 点 数 ) 、transfer function 〈 隐 含 层 激活 图 数 ， 默 认为 
softplus) ~ optimizer (优化 器 ， 默 认为 Adam) 、scale (高 斯 噪声 系数 ， 
默认 为 0.1) 。 其 中 ，class 内 的 scale 参 数 做 成 了 一 个 placeholder， 参 数 初 始 
化 则 使 用 了 接 下 来 定义 的 _initialize_weights 遂 数 。 这 里 需要 注意 的 是 ， 我 
们 只 使 用 了 一 个 隐 含 层 ， 有 需要 的 读者 可 以 自行 尝试 多 添加 几 个 隐 合 
层 


class AdditiveGaussianNoiseAutoencoder(object): 
def _ init__(self, n_input, n_hidden, transfer_function=tf.nn.softplus, 
optimizer = tf.train.AdamOptimizer(), scale=@.1): 
self.n_input = n_input 
self.n_hidden = n_hidden 
self.transfer = transfer_function 
self.scale = tf.placeholder(tf.float32) 


self.training scale = scale 


network_weights = self. initialize weights() 


self.weights = network_weights 


接 下 来 开始 定义 网 络 结 构 ， 我 们 为 输入 x 创 建 一 个 维度 为 n_input 的 
placeholder. 然后 建立 一 个 能 提取 特征 的 隐 含 屋 ， 我 们 先 将 输入 x 加 上 噪 
声 ， 即 self.x+scalex tf.random_normal((n_input,))， 然 后 用 tf.matmul 将 加 了 
噪声 的 输入 与 隐 含 层 的 权重 w1 相 乘 ， 并 使 用 tf.add 加 上 隐 含 层 的 偏 置 b1， 
最 后 使 用 self.transfer 对 结果 进行 激活 图 数 处 理 。 经 过 隐 含 层 后 ， 我 们 需要 
在 输出 层 进行 数据 复原 、 重 建 操 作 〈 即 建立 reconstruction 层 ) ， 这 里 我 们 
就 不 需要 激活 遂 数 了 ， 和 直接 将 隐 含 层 的 输出 self.hidden 乘 上 输出 层 的 权重 
w2， 骨 加 上 和 输出 层 的 偏 置 b2 即 可 。 


self.x = tf.placeholder(tf.float32, [None, self.n input]) 
self.hidden = self.transfer(tf.add(tf.matmul( 
self.x + scale * tf.random_normal((n_input, )), 
self.weights['w1']), self.weights['b1'])) 
self.reconstruction = tf.add(tf.matmul(self.hidden, 
self.weights['w2']), self.weights['b2']) 


接 下 来 定义 自 编码 器 的 损失 函数 ， 这 里 直接 使 用 平方 误差 (Squared 
Error) 作为 cost， 即 用 tf.subtract 计 算 输出 (self.reconstruction) 与 输入 
(self.x) 之 差 ， 再 使 用 tf.pow 求 差 的 平方 ， 最 后 使 用 tf.reduce_sum 求 和 即 
可 得 到 平方 误差 。 再 定义 训练 操作 为 优化 器 self.optimizer 对 损失 self.cost 进 
行 优化 。 最 后 创建 Session， 并 初始 化 自 编 码 器 的 全 部 模型 参数 。 


self.cost = 0.5 * tf.reduce sum(tf.pow(tf.subtract( 
self.reconstruction, self.x), 2.0)) 


self.optimizer = optimizer.minimize(self.cost) 


init = tf.global_variables_initializer() 
self.sess = tf.Session() 


self.sess.run(init) 


下 面 来 看 一 下 参数 初始 化 函数 _initialize_weights， 先 创建 一 个 名 为 
all_weights 的 字典 dict， 然 后 将 w1、b1、w2、b2 全 部 存 入 其 中 ， 最 后 返回 
all _weights。 其 中 w1 需 要 使 用 前 面 定 义 的 xavier_init 了 图 数 初始 化 ， 我 们 直 
接 传 入 输入 节点 数 和 隐 含 层 节 点 数 ， 然 后 xavier 即 可 返回 一 个 比较 适合 
softplus 等 激活 函数 的 权重 初始 分 布 ， 而 偏 置 b1 只 需要 使 用 tt.zeros 全 部 置 
为 0 即 可 。 对 于 输出 层 self.reconstruction ， 因 为 没有 使 用 激活 图 数 ， 这 里 
将 w2、b2 全 部 初始 化 为 0 即 可 。 


def _initialize weights(self): 
all_weights = dict() 
all_weights['w1'] = tf.Variable(xavier_init(self.n_input, 
self.n_hidden) ) 
all weights['b1'] = tf.Variable(tf.zeros([self.n_hidden], 
dtype = tf.float32)) 
all_weights['w2'] = tf.Variable(tf.zeros([self.n_hidden, 
self.n_input], dtype = tf.float32)) 
all _weights['b2'] = tf.Variable(tf.zeros([self.n_input], 
dtype = tf.float32)) 


return all weights 


FTE 1 Bin AcostkRAT—H iA KMpartial_fit, HAER R 
让 Session 执 行 两 个 计算 图 的 节点 ， 分 别 是 损失 cost 和 训练 过 程 optimizer， 
输入 的 feed_dict 包 括 输 入 数据 zx， 以 及 噪声 的 系数 scale。 卫 数 partial_fit 做 
的 就 是 用 一 个 batch 数 据 进行 训练 并 返回 当前 的 损失 cost。 


def partial fit(self, X): 
cost, opt = self.sess.run((self.cost, self.optimizer), 
feed dict = {self.x: X, self.scale: self.training scale}) 


return cost 


我 们 也 需要 一 个 只 求 损失 cost 的 图 数 calc_ total cost， 这 里 就 只 让 
Session 执 行 一 个 计算 图 节点 self.cost， 传 入 的 参数 和 前 面 的 partial_fit 
致 。 这 个 函数 是 在 自 编码 器 训练 完毕 后 ， 在 测试 集 上 对 模型 性 能 进行 评 
测 时 会 用 到 的 ， 它 不 会 像 partial_fit 那 样 触 发 训练 操作 。 


def calc_total_cost(self, X): 
return self.sess.run(self.cost, feed _dict = {self.x: X, 
self.scale: self.training scale 


}) 


我 们 还 定义 了 transform 冰 数 ， 它 返回 自 编码 器 隐 含 层 的 输出 结果 。 
它 的 目的 是 提供 一 个 接口 来 获取 抽象 后 的 特征 ， 自 编码 器 的 隐 含 层 的 最 
主要 功能 就 是 学 习 出 数据 中 的 高 阶 特征 。 


def transform(self, X): 
return self.sess.run(self.hidden, feed dict = {self.x: X, 
self.scale: self.training scale 


}) 


我 们 再 定义 generate 孙 数 ， 它 将 隐 含 层 的 输出 结果 作为 输入 ， 通 过 之 
后 的 重建 层 将 提取 到 的 高 阶 特征 复原 为 原始 数据 。 这 个 接口 和 前 面 的 
transform 正 好 将 整个 自 编码 器 拆 分 为 两 部 分 ， 这 里 的 generate 接 口 是 后 半 
部 分 ， 将 高 阶 特征 复原 为 原始 数据 的 步骤 。 


def generate(self, hidden = None): 
if hidden is None: 
hidden = np.random.normal(size = self.weights["b1"]) 
return self.sess.run(self.reconstruction, 


feed dict = {self.hidden: hidden}) 


接 下 来 定义 reconstruct 图 数 ， 它 整体 运行 一 遍 复原 过 程 ， 包 括 提取 高 
阶 特征 和 通过 高 阶 特征 复 原 数据 ， 即 包括 transform 和 generate 两 块 。 输 入 
数据 是 原 数据 ， 输 出 数据 是 复原 后 的 数据 。 


def reconstruct(self, X): 
return self.sess.run(self.reconstruction, feed dict = {self.x: X, 
self.scale: self.training scale 


}) 
这 里 的 getWeights 哨 数 作用 是 获取 隐 含 层 的 权重 w1。 


def getWeights(self): 


return self.sess.run(self.weights['w1']) 


而 getBiases 闵 数 则 是 获取 隐 含 层 的 偏 置 系数 b1。 


def getBiases(self): 


return self.sess.run(self.weights['b1']) 


至 此 ， 去 品 自 编码 器 的 class 就 全 部 定义 完了 ， 包 括 神 经 网 络 的 设 
计 、 权 重 的 初始 化 ， 以 及 几 个 常用 的 成 员 函 数 (transform、generate 等 ， 
他 们 属于 计算 图 中 的 子 图 ) 。 接 下 来 使 用 定义 好 的 AGN 自 编码 器 在 
MNIST 数 据 集 上 进行 一 些 简单 的 性 能 测试 ， 看 看 模型 对 数据 的 复原 效果 
究竟 如 何 。 


接 下 来 依然 使 用 TensorFlow 提 供 的 读 取 示 例 效 据 的 钞 效 载 入 MNIST 数 
据 集 。 


mnist = input_data.read_data_sets('MNIST_data',one_hot = True) 


先 定 义 一 个 对 训练 、 测 试 数 据 进 行 标准 化 处 理 的 阔 数 。 标 准 化 即 让 
数据 变 成 0 均值 ， 且 标准 差 为 1 的 分 布 。 方 法 就 是 先 减 去 均值 ， 再 除 以 标 
准 差 。 我 们 直接 使 用 sklearn.preprossing 的 StandardScaler 这 个 类 ， 先 在 训练 
集 上 进行 ft， 再 将 这 个 Scaler 用 到 训练 数据 和 测试 数据 上 。 这 里 需要 注意 
的 是 ， 必 须 保 证 训练 、 测 试 数 据 都 使 用 完全 相同 的 Scaler， 这 样 才能 保证 
后 面 模型 处 理 数据 时 的 一 致 性 ， 这 也 就 是 为 什么 先 在 训练 数据 上 fit 出 一 
个 共用 的 Scaler 的 原因 。 


def standard_scale(X_train, X_test): 
preprocessor = prep.StandardScaler().fit(X_train) 
X_train = preprocessor.transform(X_train) 
X_test = preprocessor.transform(X_test) 


return X_train, X_test 


BE X — AIR BY BG H block 2X HE AY EBX: 取 一 个 从 0 到 len(data) — 
batch_size 之 间 的 随机 整数 ， 再 以 这 个 随机 数 作为 block 的 起 始 位 置 ， 然 后 
顺序 取 到 一 个 batch size 的 数据 。 需 要 注意 的 是 ， 这 属于 不 放 回 抽样 ， 可 
以 提高 数据 的 利用 效率 。 


def get_random_block_from_data(data, batch_size): 
start_index = np.random.randint(@, len(data) - batch_size) 


return data[start_index:(start_index + batch_size) ] 


使 用 之 前 定义 的 standard_scale 国 数 对 训练 集 、 测 试 集 进行 标准 化 变 
换 。 


X train,X_test = standard_scale(mnist.train.images,mnist.test.images) 
接 下 来 定义 几 个 常用 参数 ， 总 训练 样本 数 ， 最 大 训练 的 轮 数 
(epoch) 设 为 20，batch_size 设 为 128， 并 设置 每 隔 一 轮 (epoch) 就 显示 
一 次 损失 cost。 


n_samples = int(mnist.train.num_examples) 


training epochs = 20 


batch_size = 128 
display_step = 1 


创建 一 个 AGN 自 编码 器 的 实例 ， 定 义 模 型 输入 节点 数 n_input 为 784， 
自 编码 器 的 隐 含 层 节 点 数 n_hidden 为 200， 隐 含 层 的 激活 冰 数 
transfer_function 为 softplus， 优 化 器 optimizer 为 Adam 且 学 习 速 率 为 0.001， 
同时 将 噪声 的 系数 scale 设 为 0.01。 


autoencoder = AdditiveGaussianNoiseAutoencoder(n_input = 784, 
n_hidden = 200, 
transfer_function = tf.nn.softplus, 
optimizer = tf.train.AdamOptimizer(learning rate = 0.001), 


scale = 0.01) 


下 面 开始 训练 过 程 ， 在 每 一 轮 (epoch) 循环 开始 时 ， 我 们 将 平均 损 
失 avg_cost 设 为 0， 并 计算 总 共 需 要 的 batch 数 (通过 样本 总 数 除 以 batch 大 
小 ) ， 注 意 这 里 使 用 的 是 不 放 回 抽样 ， 所 以 并 不 能 保证 每 个 样本 都 被 抽 
到 并 参与 训练 。 然 后 在 每 一 个 batch 的 循环 中 ， 先 使 用 
get_random_block_from_data 卫 数 随机 抽取 一 个 block 的 数据 ， 然 后 使 用 成 
员 汶 数 partial_fit 训 练 这 个 batch 的 数据 并 计算 当前 的 cost， 最 后 将 当前 的 
cost 整 合 到 avg_cost 中 。 在 每 一 轮 迭 代 后 ， 显 示 当 前 的 迭代 数 和 这 一 轮 连 
代 的 平均 cost。 我 们 在 第 一 轮 和 迭代 时 ，cost 大 约 为 19000， 在 最 后 一 轮 迭 代 
时 ，cost 大 约 为 72000， 再 接着 训练 cost 也 很 难 继续 降低 了 。 读 者 如 果 感 兴 
趣 ， 可 以 通过 调整 batch_size、epoch 数 、 优 化 器 、 自 编码 器 的 隐 含 层 数 、 
隐 含 节点 数 等 ， 来 尝试 获得 更 低 的 cost。 


for epoch in range(training epochs): 
avg cost = 6. 
total_batch = int(n_samples / batch_size) 
for i in range(total_batch): 


batch_xs = get_random_block_from_data(X_train, batch_size) 


cost = autoencoder.partial fit(batch_xs) 


avg cost += cost / n_samples * batch_size 


if epoch % display_step == @: 
print("Epoch:", '%@4d' % (epoch + 1), "cost=", 
"{:.9F}".format(avg_cost) ) 


最 后 对 训练 完 的 模型 进行 性 能 测试 ， 这 里 使 用 之 前 定义 的 成 员 国 数 
cal_total_cost 对 测试 集 X_test 进 行 测 试 ， 评 价 指标 依然 是 平 万 误差 ， 如 果 
使 用 示例 中 的 参数 ， 损 失 值 约 为 60 万 。 


print("Total cost: " + str(autoencoder.calc_total_cost(X_test))) 


至 此 ， 去 噪 自 编码 器 的 TensorFlow 实 现 就 全 部 结束 了 。 读者 可 以 发 
现 ， 实 现 自 编码 器 和 实现 一 个 单 隐 含 层 的 神经 网 络 差 不 多 ， 只 不 过 是 在 
数据 输入 时 做 了 标准 化 ， 并 加 上 了 一 个 高 斯 噪声 ， 同 时 我 们 的 输出 结 
不 是 数字 分 类 结果 ， 而 是 复原 的 数据 ， 因 此 不 需要 用 标注 过 的 数据 进行 
监督 训练 。 自 编码 器 作为 一 种 无 监督 学 习 的 方法 ， 它 与 其 他 无 监督 学 习 
的 主要 不 同 在 于 ， 它 不 是 对 数据 进行 聚 类 ， 而 是 提取 其 中 最 有 用 、 最 频 
繁 出 现 的 高 阶 特征 ， 根 据 这 些 高 阶 特征 重 构 数据 。 在 深度 学 习 发 展 早 期 
非常 流行 的 DBN， 也 是 依靠 这 种 思想 ， 先 对 数据 进行 无 监督 的 学 习 ， 提 
取 到 一 些 有 用 的 特征 ， 将 神经 网 络 权重 初始 化 到 一 个 较 好 的 分 布 ， 然 后 
再 使 用 有 标注 的 数据 进行 监督 训练 ， 即 对 权重 进行 fine-tune。 


现在 ， 无 监督 式 预 训练 的 使 用 场景 比 以 前 少 了 许多 ， 训 练 全 连接 的 
MLP 或 者 CNN、RNN 时 ， 我 们 都 不 需要 先 使 用 无 监督 训练 提取 特征 。 但 
是 无 监督 学 习 乃 至 AutoEncoder 依 然 是 非常 有 用 的 。 现 实生 活 中 ， 大 部 分 
的 数据 都 是 没有 标注 信息 的 ， 但 人 脑 就 很 擅长 处 理 这 些 数据 ， 我 们 会 提 
取 其 中 的 高 阶 抽 象 特 征 ， 并 使 用 在 其 他 地 方 。 自 编码 器 作为 深度 学 习 在 
无 监督 领域 的 尝试 是 非常 成 功 的 ， 同 时 无 监督 学 习 也 将 是 深度 学 习 接 下 
来 的 一 个 重要 发 展 方向 。 


43 ”多 层 感知 机 简介 


在 第 3 章 中 我 们 使 用 TensorFlow 实 现 了 一 个 简单 的 Softmax Regression 
模型 ， 这 个 线性 模型 最 大 的 特点 就 是 简单 易 用 ， 但 是 拟 合 能 力 不 强 。 
Softmax Regression 可 以 算是 多 分 类 问题 logistic regression， 它 和 传统 意义 
上 的 神经 网 络 的 最 大 区 别 是 没有 隐 含 层 。 隐 含 层 是 神经 网 络 的 一 个 重要 
概念 ， 它 是 指 除 输入 、 输 出 层 外 ， 中 间 的 那些 层 。 输 入 层 和 输出 层 是 对 
外 可 见 的 ， 因 此 也 被 称 作 可 视 层 ， 而 中 间 层 不 直接 暴露 出 来 ， 是 模型 的 
黑箱 部 分 ， 通 常 也 比较 难 具 有 可 解释 性 ， 所 以 一 般 被 称 作 隐 含 层 。 有 了 
隐 含 层 ， 神 经 网 络 就 具有 了 一 些 特殊 的 属性 ， 比 如 引入 非 线 性 的 隐 含 层 
后 ， 理 论 上 只 要 隐 含 节点 足够 多 ， 即 使 只 有 一 个 隐 含 层 的 神经 网 络 也 可 
以 拟 合 任意 为 数 。 同 时 隐 含 层 越 多 ， 越 容易 拟 合 复杂 函数 。 有 理论 研究 
表明 ， 为 了 拟 合 复杂 冰 数 需要 的 隐 含 节操 的 数目 ， 基 本 上 随 着 隐 含 层 的 
数量 增多 呈 指 数 下 降 趋 势 。 也 就 是 说 层 数 越 多 ， 神 经 网 络 所 需要 的 隐 含 
节点 可 以 越 少 。 这 也 是 深度 学 习 的 特点 之 一 ， 层 数 越 深 概念 越 抽 象 ， 


需要 背诵 的 知识 点 (神经 网 络 隐 含 节点 ) 就 越 少 。 不 过 实际 使 用 中 ， 使 
用 层 数 较 深 的 神经 网 络 会 遇 到 许多 困难 ， 比 如 容易 过 拟 合 、 参 数 难 以 调 
试 、 梯 度 弥 散 ， 等 等 。 对 这 些 问题 我 们 需要 很 多 Trick 来 解决 ， 在 最 近 几 
年 的 研究 中 ， 越 来 越 多 的 方法 ， 比 如 Dropout2” 、Adagrada 、ReLU2 等 ， 
逐渐 帮助 我 们 解决 了 一 部 分 问题 。 

过 拟 合 是 机 器 学 习 中 一 个 常见 的 问题 ， 它 是 指 模型 预测 准确 率 在 训 
练 集 上 升 高 ， 但 是 在 测试 集 上 反而 下 降 了 ， 这 通常 意味 着 泛 化 性 不 好 ， 
模型 只 是 记忆 了 当前 数据 的 特征 ， 不 具备 推广 能 力 。 尤 其 在 神经 网 络 
中 ， 因 为 参数 众多 ， 经 常 出 现 参 数 比 数据 还 要 多 的 情况 ， 这 就 非常 容易 
出 现 只 是 记忆 了 训练 集 特征 的 情况 。 为 了 解决 这 个 问题 ，Hinton 教 授 团 队 
提出 了 一 个 思路 简单 但 是 非常 有 效 的 方法 ，Dropout。 在 使 用 复杂 的 卷 积 
神经 网 络 训练 图 像 数 据 时 尤其 有 效 ， 它 的 大 致 思路 是 在 训练 时 ， 将 神经 
网 络 某 一 层 的 输出 节点 数据 随机 丢弃 一 部 分 。 我 们 可 以 理解 成 随机 把 一 
张 图 片 50% 的 点 删除 掉 ( 即 随机 将 50% 的 点 变 成 黑 点 ) ， 此 时 人 还 是 很 可 
能 识别 出 这 张 图 片 的 类 别 ， 当 时 机 器 也 是 可 以 的 。 这 种 做 法 实质 上 等 于 
创造 出 了 很 多 新 的 随机 样本 ， 通 过 增 大 样本 量 、 减 少 特征 数量 来 防止 过 
拟 合 。Dropout 其 实 也 算是 一 种 bagging 方 法 ， 我 们 可 以 理解 成 每 次 丢弃 节 
点 数据 是 对 特征 的 一 种 采样 。 相 当 于 我 们 训练 了 一 个 ensemble 的 神经 网 络 
模型 ， 对 每 个 样本 都 做 特征 采样 ， 只 不 过 没有 训练 多 个 神经 网 络 模型 ， 
只 有 一 个 融合 的 神经 网 络 。 

参数 难以 调试 是 神经 网 络 的 另 一 大 痛 点 ， 尤 其 是 SGD 的 参数 ， 对 
SGD 设 置 不 同 的 学 习 速 率 ， 最 后 得 到 的 结果 可 能 差异 巨大 。 神 经 网 络 通 
常 不 是 一 个 凸 优化 的 问题 ， 它 处 处 充满 了 局 部 最 优 。SGD 本 身 也 不 是 一 
个 比较 稳定 的 算法 ， 结 果 可 能 会 在 最 优 解 附近 波动 ， 而 不 同 的 学 习 速 率 
可 能 导致 神经 网 络 落 入 截然 不 同 的 局 部 最 优 之 中 。 不 过 ， 通 常 我 们 也 并 
不 指望 能 达到 全 局 最 优 ， 有 理论 表示 ， 神 经 网 络 可 能 有 很 多 个 局 部 最 优 
解 都 可 以 达到 比较 好 的 分 类 效果 ， 而 全 局 最 优 反 而 容易 是 过 拟 合 的 解 。 
我 们 也 可 以 从 人 来 类 推 ， 不 同 的 人 有 各 自 迫 异 的 脑 神 经 连接 ， 没 有 两 个 
人 的 神经 连接 方式 能 完全 一 致 ， 就 像 没有 两 个 人 的 见解 能 完全 相同 ， 但 
是 每 个 人 的 脑 神经 网 络 (局 部 最 优 解 ) 对 识别 图 片 中 物体 类 别 都 有 很 不 
错 的 效果 。 对 SGD ， 一 开始 我 们 可 能 希望 学 习 速 率 大 一 些 ， 可 以 加 速 收 
敛 ， 但 是 训练 的 后 期 又 希望 学 习 速 率 可 以 小 一 些 ， 这 样 可 以 比较 稳定 地 
落 入 一 个 局 部 最 优 解 。 不 同 的 机 器 学 习 问 题 所 需要 的 学 习 速 率 也 不 太 好 
设置 ， 需 要 反复 调试 ， 因 此 就 有 像 Adagrad、Adam”?、Adadelta?! 等 自 适 


应 的 方法 可 以 减轻 调试 参数 的 负担 。 对 于 这 些 优 化 算法 ， 通 常 我 们 使 用 
它 默 认 的 参数 设置 就 可 以 取得 一 个 比较 好 的 效果 。 而 SGD 则 需要 对 学 习 
RE, Momentum? , Nesterov3” 等 参数 进行 比较 复杂 的 调试 ， 当 调试 的 
参数 较为 适合 问题 时 ， 才 能 达到 比较 好 的 效果 。 


梯度 弥散 (Gradient Vanishment) 是 另 一 个 影响 深层 神经 网 络 训练 的 
问题 ， 在 ReLU 激 活 函 数 出 现 之 前 ， 神 经 网 络 训练 全 部 都 是 用 Sigmoid 作 为 
激活 函数 。 这 可 能 是 因为 Sigmoid 孜 数 具 有 限制 性 ， 输 出 数值 在 0 一 1， 最 
符合 概率 输出 的 定义 。 非 线性 的 Sigmoid 国 数 在 信号 的 特征 空间 映射 上 ， 
对 中 央 区 的 信号 增益 较 大 ， 对 两 侧 区 的 信号 增益 小 。 从 生物 神经 科学 的 
角度 来 看 ， 中 央 区 酷似 神经 元 的 兴奋 态 ， 两 侧 区 酷似 神经 元 的 抑制 态 。 
因而 在 神经 网 络 训练 时 ， 可 以 将 重要 特征 置 于 中 央 区 ， 将 非 重 要 特征 置 
于 两 侧 区 。 可 以 说 ，Sigmoid 比 最 初期 的 线性 激活 函数 y =x ， 阶 梯 激 活 辑 
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By = {1 Geo) My =|) Sp 好 了 不 少 。 但 是 当 神经 网 络 层 数 较 多 时 ， 


Sigmoid 国 数 在 反 向 传播 中 梯度 值 会 逐渐 减 小 ， 经 过 多 层 的 传递 后 会 呈 指 
数 级 急剧 减 小 ， 因 此 梯度 值 在 传递 到 前 面 几 层 时 就 变 得 非常 小 了 。 这 种 
情况 下 ， 根 据 训 练 数据 的 反馈 来 更 新 神经 网 络 的 参数 将 会 非常 缓慢 ， 基 
本 起 不 到 训练 的 作用 。 直 到 ReLU 的 出 现 ， 才 比较 完美 地 解决 了 梯度 弥散 
的 问题 。ReLU 是 一 个 简单 的 非 线 性 函数 y =max(0,x )， 它 在 坐标 轴 上 是 一 
条 折线 (如 图 4-4(B) 所 示 ) ， 当 x <0 时 ，y =0; 当 x>0 时 ，y =x ， 非 常 类 似 
于 人 脑 的 阐 值 响应 机 制 (如 图 4-4(A) 所 示 ) 。 信 号 在 超过 某 个 阅 值 时 ， 神 
经 元 才 会 进入 兴奋 和 激活 的 状态 ， 平 时 则 处 于 抑制 状态 。ReLU 可 以 很 好 
地 传递 梯度 ， 经 过 多 层 的 反 向 传播 ， 梯 度 依旧 不 会 大 幅 缩 小 ， 因 此 非常 
适合 训练 很 深 的 神经 网 络 。ReLU 从 正面 解决 了 梯度 弥散 的 问题 ， 而 不 需 
要 通过 无 监督 的 逐 层 训练 初始 化 权重 来 绕 行 。ReLU 对 比 Sigmoid 的 主要 变 
化 有 如 下 3 点 。 

(1) 单 侧 抑制 。 

(2) 相对 宽阔 的 兴奋 边界 。 

(3) 稀疏 激活 性 。 

神经 科学 家 在 进行 大 脑 能 量 消 耗 的 研究 中 发 现 ， 神 经 元 编码 的 工作 
方式 具有 稀疏 性 ， 推 测 大 脑 同 时 被 激活 的 神经 元 只 有 19% 天 49%。 神 经 元 只 
会 对 输入 信号 有 人 少 部 分 的 选择 性 响应 ， 大 量 不 相关 的 信号 被 屏 亚 ， 这 样 
可 以 更 高 效 地 提取 重要 特征 。 传 统 的 Sigmoid 函 数 则 有 接近 一 半 的 神经 元 
被 激活 ， 不 符合 神经 科学 的 研究 。Softplus 虽 然 有 单 侧 抑制 ， 却 没有 稀疏 


激活 性 ， 因 而 ReLU 函 数 max(0, 刀 成 了 最 符合 实际 神经 元 的 模型 。 目 前 ， 
ReLU 及 其 变种 (ElU* , PReLU®, RReLU*®) 已 经 成 为 了 最 主流 的 激活 
函数 。 实 践 中 大 部 分 情况 下 (包括 MLP 和 CNN，RNN 内 部 主要 还 是 使 用 
Sigmoid, Tanh, Hard Sigmoid) 将 隐 含 层 的 激活 了 数 从 Sigmoid 替 换 为 
ReLU 都 可 以 带 来 训练 速度 及 模型 准确 率 的 提升 。 当 然 神经 网 络 的 输出 层 
一 般 都 还 是 Sigmoid 函 数 ， 因 为 它 最 接近 概率 输出 分 布 。 
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图 4-4(A) 神经 科学 家 提出 的 神经 元 激活 模型 
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图 4-4(B) ReLU 激 活 函 数 必 Softplus 激 活 函 数 


上 面 三 段 分 别提 到 了 可 以 解决 多 层 神 经 网 络 问题 的 Dropout、 
Adagrad、ReLU 等 ， 那 么 多 层 神 经 网 络 到 底 有 什么 显著 的 能 力 值得 大 家 
探索 呢 ? 或 者 说 神经 网 络 的 隐 含 层 到 底 有 什么 用 呢 ? 隐 含 层 的 一 个 代表 
性 的 功能 是 可 以 解决 XOR 问 题 。 在 早期 神经 网 络 的 研究 中 ， 有 学 者 提出 
一 个 尖锐 的 问题 ， 当 时 〈 没 有 隐 含 层 ) 的 神经 网 络 无 法 解决 XOR 的 问 
题 。 如 图 4-5 所 示 ， 假 设 我 们 有 两 个 维度 的 特征 ， 并 且 有 两 类 样本 ， (0, 
0). (1，1) ÆRE, (0,1). (1，0) 是 黑色 ， 在 这 个 特征 空间 中 
这 两 类 样本 是 线性 不 可 分 的 ， 也 就 是 说 ， 我 们 无 法 用 一 条 直线 把 灰 、 
两 类 分 开 。 没 有 隐 含 层 的 神经 网 络 是 线性 的 ， 所 以 不 可 能 对 这 两 类 样本 


进行 正确 地 区 分 。 这 是 早期 神经 网 络 的 致命 缺点 ， 也 直接 导致 了 当时 神 
经 网 络 研究 的 低谷 。 当 引入 了 隐 含 层 并 使 用 非 线 性 的 激活 阔 数 (如 
Sigmoid、ReLU) 后 ， 我 们 可 以 使 用 曲线 划分 两 类 样本 ， 可 以 轻松 解决 
XOR 异 或 国 数 的 分 类 问题 。 神 经 网 络 的 隐 含 层 越 多 ， 就 可 以 对 原 有 特征 
进行 越 抽象 的 变换 ， 模 型 的 拟 合 能 力 就 越 强 。 这 就 是 多 层 神 经 网 络 (或 
多 层 感知 机 ，Multi-Layer Perceptron, MLP) 的 功能 所 在 。 


接 下 来 ， 我 们 通过 例子 展示 在 仅 加 入 一 个 隐 含 层 的 情况 下 ， 神 经 网 
络 对 MNIST 数 据 集 的 分 类 性 能 就 有 显著 提升 ， 可 以 达到 98% 的 准确 率 。 
当然 ， 其 中 使 用 了 Dropout、Adagrad、ReLU 等 辅助 性 组 件 。 
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图 4-5 XOR 分 类 问题 
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在 第 3 章 中 我 们 讲解 了 使 用 TensorFlow 实 现 一 个 完整 的 Softmax 
Regression (无 隐 含 层 ) ， 并 在 MNIST 数 据 集 上 取得 了 大 约 92% 的 正确 
率 。 现 在 ， 我 们 要 给 神经 网 络 加 上 隐 含 层 ， 并 使 用 4.3 节 提 到 的 减轻 过 拟 
合 的 Dropout、 自 适应 学 习 速 率 的 Adagrad， 以 及 可 以 解决 梯度 弥散 的 激活 
疯 数 ReLU。 在 TensorFlow 中 实现 这 些 都 是 非常 方便 的 ， 通 常 只 需要 调用 
相应 的 类 或 者 函数 即 可 。 


首先 ， 载 入 TensorFlow 并 加 载 MNIST 数 据 集 ， 创 建 一 个 TensorFlow 默 
认 的 Interactive Session， 这 样 后 面 执行 各 项 操作 就 无 须 指 定 Session 了 。 


from tensorflow.examples.tutorials.mnist import input_data 
import tensorflow as tf 
mnist = input_data.read_data_sets("MNIST data/", one_hot=True) 


sess = tf.InteractiveSession() 


接 下 来 我 们 要 给 隐 含 层 的 参数 设置 Variable 并 进行 初始 化 ， 这 里 
in_units 是 输入 节点 数 ，h1_units 即 隐 含 层 的 输出 节点 数 设 为 300 (EHR 
型 中 隐 含 节点 数 设 在 200~1000 范 围 内 的 结果 区 别 都 不 大 ) 。W1、b1 是 隐 
含 层 的 权重 和 偏 置 ， 我 们 将 偏 置 全 部 赋值 为 0%， 并 将 权重 初始 化 为 截断 的 
正 态 分 布 ， 其 标准 差 为 0.1， 这 一 步 可 以 通过 tf.truncated_normal 方 便 地 实 
现 。 因 为 模型 使 用 的 激活 函数 是 ReLU， 所 以 需要 使 用 正 态 分 布 给 参数 加 
一 点 噪声 ， 来 打破 完全 对 称 并 且 避 免 0 梯 度 。 在 其 他 一 些 模型 中 ， 有 时 还 
需要 给 偏 置 赋 上 一 些小 的 非 零 值 来 避免 dead neuron (死亡 神经 元 ) ， 不 
过 在 这 里 作用 不 太 了 明显。 而 对 最 后 输出 层 的 Softmax， 直 接 将 权重 W2 和 偏 
置 b2 全 部 初始 化 为 0 即 可 (上 面 提 到 过 ， 对 于 Sigmoid， 在 0 附近 最 敏感 、 
梯度 最 大 ) 。 


in_units = 784 

hi_units = 366 

W1 = tf.Variable(tf.truncated_normal([in_units, hl units], stddev=0@.1)) 
b1 = tf.Variable(tf.zeros([h1_units])) 

W2 = tf.Variable(tf.zeros([h1_units, 10])) 

b2 = tf.Variable(tf.zeros([10])) 


接 下 来 定义 输入 x 的 placeholder。 另 外 因为 在 训练 和 预测 时 ，Dropout 
的 比率 keep_prob ( 即 保留 节点 的 概率 ) 是 不 一 样 的 ， 通 常 在 训练 时 小 于 
1， 而 预测 时 则 等 于 1， 所 以 也 把 Dropout 的 比率 作为 计算 图 的 输入 ， 并 定 
义 成 一 个 placeholder。 


x = tf.placeholder(tf.float32, [None, in_units]) 
keep_prob = tf.placeholder(tf.float32) 


下 面 定义 模型 结构 。 首 先 需要 一 个 隐 含 层 ， 命 名 为 hidden1， 可 以 通 
过 tf.nn.relu(tf.matmul(x ,W , )+b , ) 实 现 一 个 激活 图 数 为 ReLU 的 隐 含 层 ， 这 
个 隐 含 层 的 计算 公式 就 是 y =relu (W, x +b, )。 接 下 来 ， 调 用 tf.nn.dropout 实 


现 Dropout 的 功能 ， 即 随机 将 一 部 分 节点 置 为 0， 这 里 的 keep_prob 参 数 即 
为 保留 数据 而 不 置 为 0 的 比例 ， 在 训练 时 应 该 是 小 于 1 的 ， 用 以 制造 随机 
性 ， 防 止 过 拟 合 ; 在 预测 时 应 该 等 于 1， 即 使 用 全 部 特征 来 预测 样本 的 类 
别 。 最 后 是 输出 层 ， 也 就 是 第 3 章 介 绍 的 Softmax， 这 一 行 代码 的 功能 和 
之 前 是 一 致 的 。 


hidden1 = tf.nn.relu(tf.matmul(x, W1) + b1) 
hidden1 drop = tf.nn.dropout(hidden1, keep prob) 
y = tf.nn.softmax(tf.matmul(hidden1_drop, W2) + b2) 


第 3 章 提 到 的 使 用 TensorFlow 训 练 神经 网 络 的 4 个 步骤 ， 到 目前 为 止 ， 
我 们 已 经 完成 了 4 步 中 的 第 1 步 : 定义 算法 公式 ， 即 神经 网 络 forward 时 的 
计算 。 接 下 来 继续 第 2 步 ， 定 义 损失 遂 数 和 选择 优化 器 来 优化 loss， 这 里 
的 损失 遂 数 继续 使 用 交叉 信息 粹 ， 和 之 前 一 致 ， 但 是 优化 器 选择 自 适 应 
的 优化 器 Adagrad ， 并 把 学 习 速 率 设 为 0.3， 这 里 我 们 直接 使 用 
tf.train.AdagradOptimizer 就 可 以 了 。 类 似 地 ， 还 有 Adadelta 及 Adam 等 优化 
器 ， 读 者 可 以 自行 尝试 ， 不 过 学 习 速 率 可 能 需要 调整 。 


y_ = tf.placeholder(tf.float32, [None, 10]) 
cross entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y), 
reduction_indices=[1])) 


train_step = tf.train.AdagradOptimizer(@.3).minimize(cross_entropy) 


然后 进行 第 3 步 ， 训 练 步 又， 这 里 有 一 点 和 之 前 不 同 ， 我 们 加 入 了 
keep_prob 作 为 计算 图 的 输入 ， 并 且 在 训练 时 设 为 0.75， 即 保留 75% 的 节 
点 ， 其 余 的 25% 置 为 0。 一 般 来 说 ， 对 越 复 杂 越 大 规模 的 神经 网 络 ， 
Dropout 的 效果 越 显著 。 另 外 ， 因 为 加 入 了 隐 含 层 ， 我 们 需要 更 多 的 训练 
迭代 来 优化 模型 参数 以 达到 一 个 比较 好 的 效果 。 所 以 一 共 来 用 了 3000 个 
bacth， 每 个 batch 包 含 100 条 样本 ， 一 共 30 万 的 样本 ， 相 当 于 是 对 全 数据 集 
进行 了 5 轮 (epoch) 迭代 。 读 者 也 可 以 尝试 增 大 循环 次 数 ， 准 确 率 会 


有 提高 。 


tf.global variables initializer().run() 

for i in range(3666 ) : 
batch_xs, batch_ys = mnist.train.next_batch(166) 
train_step.run({x: batch_xs, y_: batch ys, keep prob: @.75}) 


最 后 我 们 进行 第 4 步 ， 对 模型 进行 准确 率 评测 ， 这 里 的 代码 和 第 3 章 
讲解 的 评测 代码 基本 一 致 ， 但 还 是 需要 加 入 一 个 keep_prob 作 为 输入 。 
为 是 预测 部 分 ， 所 以 我 们 直接 令 keep_prob 等 于 1 即 可 ， 这 样 可 以 达到 模型 
最 好 的 预测 效果 。 


correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1)) 
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32)) 
print(accuracy.eval({x: mnist.test.images, y_: mnist.test.labels, 


keep prob: 1.0})) 


最 终 ， 我 们 在 测试 集 上 可 以 达到 98% 的 准确 率 。 相 比 之 前 的 
Softmax， 我 们 的 误差 率 由 8% 下 降 到 2%， 对 识别 银行 账单 这 种 精确 度 要 
求 很 高 的 场景 ， 可 以 说 是 飞跃 性 的 提高 。 而 这 个 提升 仅 靠 增加 一 个 隐 含 
层 就 实现 了 ， 可 见 多 层 神 经 网 络 的 效果 有 多 显著 。 当 然 ， 其 中 我 们 也 使 
用 了 一 些 Trick 进 行 辅助 ， 比 如 Dropout、Adagrad、ReLU 等 ， 但 是 起 决定 
性 作用 的 还 是 隐 含 层 本 身 ， 它 能 对 特征 进行 抽象 和 转化 。 


没有 隐 含 层 的 Softmax Regression 只 能 直接 从 图 像 的 像素 点 推断 是 哪 
个 数字 ， 而 没有 特征 抽象 的 过 程 。 多 层 神 经 网 络 依靠 隐 含 层 ， 则 可 以 组 
合 出 高 阶 特征 ， 比 如 横 线 、 竖 线 、 圆 圈 等 ， 之 后 可 以 将 这 些 高 阶 特征 或 
者 说 组 件 再 组 合成 数字 ， 就 能 实现 精准 的 匹配 和 分 类 。 隐 含 层 输出 的 高 
阶 特 征 (组 件 ) 经 常 是 可 以 复 用 的 ， 所 以 每 一 类 的 判别 、 概 率 输 出 都 共 
享 这 些 高 阶 特 征 ， 而 不 是 各 自 连 接 独立 的 高 阶 特 征 。 


同时 我 们 可 以 发 现 ， 新 加 了 一 个 隐 含 层 ， 并 使 用 了 Dropout、Adagrad 
和 ReLU， 而 代码 没有 增加 很 多 ， 这 就 是 TensorFlow 的 优势 之 一 。 它 的 代 
码 非常 简洁 ， 没 有 太 多 的 见 余 ， 可 以 方便 地 将 有 用 的 模块 拼装 在 一 起 。 


总 结 一 下 ， 本 节 我 们 介绍 了 如 何 实现 包含 一 个 隐 含 层 的 MLP， 对 于 
有 更 多 个 隐 含 层 的 MLP， 读 者 可 以 如 法 炮制 。 我 们 讲解 了 Dropout、 
Adagrad、ReLU 的 原理 和 作用 ， 以 及 如 何在 TensorFlow 中 使 用 它们 。 


不 过 ， 使 用 全 连接 神经 网 络 (Fully Connected Network, FCN, MLP 
的 另 一 种 说 法 ) 也 是 有 局 限 的 ， 即 使 我 们 使 用 很 深 的 网 络 、 很 多 的 隐藏 
节点 、 很 大 的 迭代 轮 数 ， 也 很 难 在 MNIST 数 据 集 上 达到 99% 以 上 的 准确 
率 。 因 此 第 5 章 我 们 将 介绍 卷 积 神经 网 络 ， 以 及 如 何在 MNIST 数 据 集 上 使 
用 CNN 达 到 99% 以 上 的 准确 率 ， 真 正 满足 识别 银行 支票 这 种 高 精度 系统 
的 需求 。 
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5.1 卷 积 神经 网 络 简介 


卷 积 神经 网 络 (Convolutional Neural Network, CNN) 最 初 是 为 解决 
图 像 识 别 等 问题 设计 的 ， 当 然 其 现在 的 应 用 不 仅 限 于 图 像 和 视频 ， 也 可 
用 于 时 间 序 列 信号 ， 比 如 音频 信号 、 文 本 数据 等 。 在 早期 的 图 像 识 别 研 
究 中 ， 最 大 的 挑战 是 如 何 组 织 特征 ， 因 为 图 像 数 据 不 像 其 他 类 型 的 数据 
那样 可 以 通过 人 工 理 解 来 提取 特征 。 在 股票 预测 等 模型 中 ， 我 们 可 以 从 
原始 数据 中 提取 过 往 的 交易 价格 波动 、 市 县 率 、 市 净 率 、 和 一 利 增长 等 金 
融 因 子 ， 这 即 是 特征 工程 。 但 是 在 图 像 中 ， 我 们 很 难 根据 人 为 理解 提取 
出 有 效 而 丰富 的 特征 。 在 深度 学 习 出 现 之 前 ， 我 们 必须 借助 SIFT、HoG 
等 算法 提取 具有 民 好 区 分 性 的 特征 ， 再 集合 SVM 等 机 器 学 习 算法 进行 图 
像 识 别 。 如 图 5-1 所 示 ，SIFT 对 一 定 程度 内 的 缩放 、 和 平移、 旋转、 视角 改 
变 、 亮 度 调 整 等 畸变 ， 都 具有 不 变性 ， 是 当时 最 重要 的 图 像 特征 提取 方 
法 之 一 。 可 以 说 ， 在 之 前 只 能 依靠 SIFT 等 特征 提取 算法 才能 勉强 进行 可 
靠 的 图 像 识别 。 
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图 5-1 SIFT、HoG 等 图 像 特 征 提取 方法 


然而 SIFT 这 类 算法 提取 的 特征 还 是 有 局 限 性 的 ， 在 ImageNet ILSVRC 
比赛 的 最 好 结果 的 错误 率 也 有 26% 以 上 ， 而 且 常年 难以 产生 突破 。 卷 积 神 
经 网 络 提取 的 特征 则 可 以 达到 更 好 的 效果 ， 同 时 它 不 需要 将 特征 提取 和 
分 类 训练 两 个 过 程 分 开 ， 它 在 训练 时 就 自动 提取 了 最 有 效 的 特征 。CNN 
作为 一 个 深度 学 习 架 构 被 提出 的 最 初 诉求 ， 是 降低 对 图 像 数 据 预 处 理 的 
要 求 ， 以 及 避免 复杂 的 特征 工程 。CNN 可 以 直接 使 用 图 像 的 原始 像素 作 
为 输入 ， 而 不 必 先 使 用 SIFT 等 算法 提取 特征 ， 减 轻 了 使 用 传统 算法 如 
SVM 时 必需 要 做 的 大 量 重 复 、 烦 琐 的 数据 预 处 理工 作 。 和 SIFT 等 算法 类 
似 ，CNN 训 练 的 模型 同样 对 缩放 、 平 移 、 旋 转 等 畸变 具有 不 变性 ， 有 着 
很 强 的 泛 化 性 。CNN 的 最 大 特点 在 于 卷 积 的 权 值 共享 结构 ， 可 以 大 幅 减 
少 神经 网 络 的 参数 量 ， 防 止 过 拟 合 的 同时 又 降低 了 神经 网 络 模 型 的 复杂 
度 。CNN 的 权 值 共享 其 实 也 很 像 早 期 的 延 时 神经 网 络 (TDNN) ， 只 不 
过 后 者 是 在 时 间 这 一 个 维度 上 进行 权 值 共享 ， 降 低 了 学 习 时 间 序 列 信号 
的 复杂 度 。 

卷 积 神经 网 络 的 概念 最 早出 自 19 世 纪 60 年 代 科 学 家 提出 的 感受 野 
(Receptive Field”) 。 当 时 科学 家 通过 对 猫 的 视觉 皮层 细胞 研究 发 现 ， 
每 一 个 视觉 神经 元 只 会 处 理 一 小 块 区 域 的 视觉 图 像 ， 即 感受 野 。 到 了 20 
世纪 80 年 代 ， 日 本 科学 家 提出 神经 认 知 机 (Neocognitron® ) 的 概念 ， 可 
以 算 作 是 卷 积 网 络 最 初 的 实现 原型 。 神 经 认 知 机 中 包含 两 类 神经 元 ， 用 
来 抽取 特征 的 S-cells， 还 有 用 来 抗 形变 的 C-cells， 其 中 S-cells 对 应 我 们 现 
在 主流 卷 积 神经 网 络 中 的 卷 积 核 滤波 操作 ， 而 C-cells 则 对 应 激活 函数 、 最 
大 池 化 〈Max-Pooling) 等 操作 。 同 时 ，CNN 也 是 首 个 成 功 地 进行 多 层 训 
练 的 网 络 结构 ， 即 前 面 章 节 提 到 的 LeCun 的 LeNet53”， 而 全 连接 的 网 络 因 
为 参数 过 多 及 梯度 弥散 等 问题 ， 在 早期 很 难 顺利 地 进行 多 层 的 训练 。 卷 
积 神经 网 络 可 以 利用 空间 结构 关系 减少 需要 学 习 的 参数 量 ， 从 而 提高 反 
向 传播 算法 的 训练 效率 。 在 卷 积 神经 网 络 中 ， 第 一 个 卷 积 层 会 直接 接受 
图 像 像 素 级 的 输入 ， 每 一 个 卷 积 操作 只 处 理 一 小 块 图 像 ， 进 行 卷 积 变化 
后 再 传 到 后 面 的 网 络 ， 每 一 层 卷 积 〈 也 可 以 说 是 滤波 器 ) 都 会 提取 数据 
中 最 有 效 的 特征 。 这 种 方法 可 以 提取 到 图 像 中 最 基础 的 特征 ， 比 如 不 同 
方向 的 边 或 者 抛 角 ， 而 后 再 进行 组 合 和 抽象 形成 更 高 阶 的 特征 ， 因 此 
CNN 可 以 应 对 各 种 情况 ， 理 论 上 具有 对 图 像 缩 放 、 平 移 和 旋转 的 不 变 

性 。 
一 般 的 卷 积 神经 网 络 由 多 个 卷 积 层 构 成 ， 每 个 卷 积 层 中 通常 会 进行 
如 下 几 个 操作 。 


(1) 图 像 通过 多 个 不 同 的 卷 积 核 的 滤波 ， 并 加 偏 置 (bias) ， 提 取 
出 局 部 特征 ， 每 一 个 卷 积 核 会 映射 出 一 个 新 的 2D 图 像 。 


(2) 将 前 面 卷 积 核 的 滤波 输出 结果 ， 进 行 非 线性 的 激活 函数 处 理 。 
目前 最 单 见 的 是 使 用 ReLU 国 效 ， 而 以 前 Sigmoid 孙 效用 得 比较 多 。 


(3) 对 激活 函数 的 结果 再 进行 池 化 操作 〈 即 降 采样 ， 比 如 将 2x2 的 
图 片 降 为 1x1 的 图 片 ) ， 目 前 一 般 是 使 用 最 大 池 化 ， 保 留 最 显著 的 特征 ， 
并 提升 模型 的 畸变 容忍 能 力 。 


这 几 个 步骤 就 构成 了 最 常见 的 卷 积 层 ， 当 然 也 可 以 再 加 上 一 个 LRN” 
(Local Response Normalization， 局 部 响应 归 一 化 层 ) 层 ， 目 前 非常 流行 
的 Trick 还 有 Batch Normalization 等 。 


一 个 卷 积 层 中 可 以 有 多 个 不 同 的 卷 积 核 ， 而 每 一 个 卷 积 核 都 对 应 一 
个 滤波 后 映射 出 的 新 图 像 ， 同 一 个 新 图 像 中 每 一 个 像素 都 来 自 完全 相同 
的 卷 积 核 ， 这 就 是 卷 积 核 的 权 值 共享 。 那 我 们 为 什么 要 共享 卷 积 核 的 权 
值 参 数 呢 ? 答案 很 简单 ， 降 低 模 型 复杂 度 ， 减 轻 过 拟 合 并 降低 计算 量 。 
举 个 例子 ， 如 图 5-2 所 示 ， 如 果 我 们 的 图 像 尺 寸 是 1000 像 素 x1000 像 素 ， 
并 且 假 定 是 黑白 图 像 ， 即 只 有 一 个 颜色 通道 ， 那 么 一 张 图 片 就 有 100 万 个 
像素 点 ， 输 入 数据 的 维度 也 是 100 万 。 接 下 来 ， 如 果 连 接 一 个 相同 大 小 的 
REE (100 万 个 隐 含 节点 ) ， 那 么 将 产生 100 万 x100 万 = 一 万 亿 个 连接 。 
仅仅 一 个 全 连接 层 (Fully Connected Layer) ， 就 有 一 万 亿 连 接 的 权重 要 
去 训练 ， 这 已 经 超出 了 普通 硬件 的 计算 能 力 。 我 们 必须 减少 需要 训练 的 
权重 数量 ， 一 是 降低 计算 的 复杂 度 ， 二 是 过 多 的 连接 会 导致 严重 的 过 拟 
合 ， 减 少 连接 数 可 以 提升 模型 的 泛 化 性 。 

图 像 在 空间 上 是 有 组 织 结构 的 ， 每 一 个 像素 点 在 空间 上 和 周围 的 像 
素 点 实际 上 是 有 紧密 联系 的 ， 但 是 和 太 遥 远 的 像素 点 就 不 一 定 有 什么 关 
联 了 。 这 就 是 前 面 提 到 的 人 的 视觉 感受 野 的 概念 ， 每 一 个 感受 野 只 接受 
一 小 块 区 域 的 信号 。 这 一 小 块 区 域内 的 像素 是 互相 关联 的 ， 每 一 个 神经 
元 不 需要 接收 全 部 像素 点 的 信息 ， 只 需要 接收 局 部 的 像素 点 作为 输入 ， 
而 后 将 所 有 这 些 神经 元 收 到 的 局 部 信息 综合 起 来 就 可 以 得 到 全 局 的 信 
息 。 这 样 就 可 以 将 之 前 的 全 连接 的 模式 修改 为 局 部 连接 ， 之 前 隐 含 层 的 
每 一 个 隐 含 节点 都 和 全 部 像素 相连 ， 现 在 我 们 只 需要 将 每 一 个 隐 含 节点 
连接 到 局 部 的 像素 节点 。 假 设 局 部 感受 野 大 小 是 10x10， 即 每 个 隐 含 节点 
只 与 10x10 个 像素 点 相连 ， 那 么 现在 就 只 需要 10x10x100 万 =1 亿 个 连接 ， 
相 比 之 前 的 1 万 亿 缩 小 了 10000 倍 。 


FULLY CONNECTED NEURAL NET LOCALLY CONNECTED NEURAL NET 


上 面 我 们 通过 局 部 连接 (Locally Connect) 的 方法 ， 将 连接 数 从 1 万 
亿 降 低 到 1 亿 ， 但 仍然 偏 多 ， 需 要 继续 降低 参数 量 。 现 在 隐 含 层 每 一 个 节 
挟 都 与 10x10 的 像素 相连 ， 也 就 是 每 一 个 隐 含 节点 都 拥有 100 个 参数 。 假 
设 我 们 的 局 部 连接 方式 是 卷 积 操 作 ， 即 默认 每 一 个 隐 含 节点 的 参数 都 完 
全 一 样 ， 那 我 们 的 参数 不 再 是 1 亿 ， 而 是 100。 不 论 图 像 有 多 大 ， 都 是 这 
10x10=100 个 参数 ， 即 卷 积 核 的 尺寸 ， 这 就 是 卷 积 对 缩小 参数 量 的 贡献 。 
我 们 不 需要 再 担心 有 多 少 隐 含 节点 或 者 图 片 有 多 大 ， 参 数量 只 跟 卷 积 核 
的 大 小 有 关 ， 这 也 就 是 所 谓 的 权 值 共 享 。 但 是 如 果 我 们 只 有 一 个 卷 积 
核 ， 我 们 就 只 能 提取 一 种 卷 积 核 滤 疲 的 结果 ， 即 只 能 提取 一 种 图 片 特 
征 ， 这 不 是 我 们 期 望 的 结果 。 好 在 图 像 中 最 基本 的 特征 很 少 ， 我 们 可 以 
增加 卷 积 核 的 数量 来 多 提取 一 些 特征 。 图 像 中 的 基本 特征 无 非 就 是 点 和 
W, 无论 多 么 复杂 的 图 像 都 是 点 和 边 组 合 而 成 的 。 人 眼 识 别 物体 的 方式 
也 是 从 点 和 边 开 始 的 ， 视 觉 神 经 元 接受 光 信 号 后 ， 每 一 个 神经 元 只 接受 
一 个 区 域 的 信号 ， 并 提取 出 点 和 边 的 特征 ， 然 后 将 点 和 边 的 信号 传递 给 
后 面 一 层 的 神经 元 ， 再 接着 组 合成 高 阶 特征 ， 比 如 三 角形 、 正 方形 、 直 
线 、 拐 角 等 ， 再 继续 抽象 组 合 ， 得 到 眼睛 、 鼻 子 和 嘴 等 五 官 ， 最 后 再 将 
五 官 组 合成 一 张 脸 ， 完 成 匹配 识别 。 因 此 我 们 的 问题 就 很 好 解决 了 ， 只 
要 我 们 提供 的 卷 积 核 数 量 足 够 多 ， 能 提取 出 各 种 方向 的 边 或 各 种 形态 的 
点 ， 就 可 以 让 卷 积 层 抽象 出 有 效 而 丰富 的 高 阶 特 征 。 每 一 个 卷 积 核 滤 波 
得 到 的 图 像 就 是 一 类 特征 的 映射 ， 即 一 个 Feature Map。 一 般 来 说 ， 我 们 
使 用 100 个 卷 积 核 放 在 第 一 个 卷 积 层 就 已 经 很 充足 了 。 那 这 样 的 话 ， 如 图 
5-3 所 示 ， 我 们 的 参数 量 就 是 100x100=1 万 个 ， 相 比 之 前 的 1 亿 又 缩小 了 
10000 倍 。 因 此 ， 依 靠 卷 积 ， 我 们 就 可 以 高 效 地 训练 局 部 连接 的 神经 网 络 
了 。 卷 积 的 好 处 是 ， 不 管 图 片 尺 十 如 何 ， 我 们 需要 训练 的 权 值 数量 只 跟 
卷 积 核 大 小 、 卷 积 核 数量 有 关 ， 我 们 可 以 使 用 非常 少 的 参数 量 处 理 任意 
大 小 的 图 片 。 每 一 个 卷 积 层 提 取 的 特征 ， 在 后 面 的 层 中 都 会 抽象 组 合成 
更 高 阶 的 特征 。 而 且 多 层 抽 象 的 卷 积 网 络 表达 能 力 更 强 ， 效 率 更 高 ， 相 


比 只 使 用 一 个 隐 含 层 提 取 全 部 高 阶 特征 ， 反 而 可 以 节省 大 量 的 参数 。 当 
然 ， 我 们 需要 注意 的 是 ， 虽 然 需 要 训练 的 参数 量 下 降 了 ， 但 是 隐 含 节点 
的 数量 并 没有 下 降 ， 隐 含 节点 的 数量 只 跟 卷 积 的 步 长 有 关 。 如 果 步 长 为 
1， 那 么 隐 含 节点 的 数量 和 输入 的 图 像 像 素数 量 一 致 ; 如 果 步 长 为 5， 那 
么 每 5x5 的 像素 才 需 要 一 个 隐 售 节点 ， 我 们 隐 含 节点 的 数量 就 是 输入 像素 
数量 的 1/25。 
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我 们 再 总 结 一 下 ， 卷 积 神 经 网 络 的 要 点 就 是 局 部 连接 (Local 
Connection) 、 权 值 共 享 (Weight Sharing) 和 池 化 层 (Pooling) 中 的 降 
采样 (Down-Sampling) 。 其 中 ， 局 部 连接 和 权 值 共享 降低 了 参数 量 ， 使 
训练 复杂 度 大 大 下 降 ， 并 减轻 了 过 拟 合 。 同 时 权 值 共享 还 赋予 了 卷 积 网 
络 对 平移 的 容忍 性 ， 而 池 化 层 降 采样 则 进一步 降低 了 输出 参数 量 ， 并 赋 
予 模型 对 轻 度 形变 的 容忍 性 ， 提 高 了 模型 的 泛 化 能 力 。 卷 积 神经 网 络 相 
比 传统 的 机 器 学 习 算 法 ， 无 须 手 工 提 取 特 征 ， 也 不 需要 使 用 诸如 SIFT 之 
类 的 特征 提取 算法 ， 可 以 在 训练 中 自动 完成 特征 的 提取 和 抽象 ， 并 同时 
进行 模式 分 类 ， 大 大 降低 了 应 用 图 像 识 别 的 难度 ; 相 比 一 般 的 神经 网 
络 ，CNN 在 结构 上 和 图 片 的 空间 结构 更 为 贴近 ， 都 是 2D 的 有 联系 的 结 
构 ， 并 且 CNN 的 卷 积 连接 方式 和 人 的 视觉 神经 处 理光 信号 的 方式 类 似 。 


大 名 昂昂 的 LeNet5 诞生 于 1994 年 ， 是 最 早 的 深层 卷 积 神经 网 络 之 
一 ， 并 且 推 动 了 深度 学 习 的 发 展 。 从 1988 年 开始 ， 在 多 次 成 功 的 迭代 
后 ， 这 项 由 Yann LeCun 完 成 的 开拓 性 成 果 被 命名 为 LeNet5。LeCun 认 为 ， 
可 训练 参数 的 卷 积 层 是 一 种 用 少量 参数 在 图 像 的 多 个 位 置 上 提取 相似 特 
征 的 有 效 方式 ， 这 和 直接 把 每 个 像素 作为 多 层 神经 网 络 的 输入 不 同 。 像 
素 不 应 该 被 使 用 在 输入 层 ， 因 为 图 像 具 有 很 强 的 空间 相关 性 ， 而 使 用 图 
像 中 独立 的 像素 直接 作为 输入 则 利用 不 到 这 些 相关 性 。 


LeNet5 当 时 的 特性 有 如 下 几 点 。 

. 每 个 卷 积 层 包 含 三 个 部 分 : 卷 积 、 池 化 和 非 线性 激活 图 数 

. 使 用 卷 积 提取 空间 特征 

. 降 采 样 (Subsample) 的 平均 池 化 层 (Average Pooling) 

- 双 曲 正切 (Tanh) 或 $ 型 (Sigmoid) 的 激活 函数 

. MLP 作 为 最 后 的 分 类 器 

层 与 层 之 间 的 稀 跑 连接 减少 计算 复杂 度 

LeNet5 中 的 诸多 特性 现在 依然 在 state-of-the-art 卷 积 神经 网 络 中 使 
用 ， 可 以 说 LeNet5 是 奠定 了 现代 卷 积 神经 网 络 的 基石 之 作 。Lenet-5 的 结 
构 如 图 5-4 所 示 。 它 的 输入 图 像 为 32x32 的 灰 度 值 图像 ， 后 面 有 三 个 卷 积 
层 ， 一 个 全 连接 层 和 一 个 高 斯 连接 层 。 它 的 第 一 个 卷 积 层 C1 包含 6 个 卷 积 
核 ， 卷 积 核 尺寸 为 5x5， 即 总 共 (5x5+1) x6=156 个 参数 ， 括 号 中 的 1 代表 
1 个 bias， 后 面 是 一 个 2x2 的 平均 池 化 层 S2 用 来 进行 降 采 样 ， 再 之 后 是 一 个 
Sigmoid 激 活 函 数 用 来 进行 非 线 性 处 理 。 而 后 是 第 二 个 卷 积 层 C3， 同 样 卷 
积 核 尺 寸 是 sx5， 这 里 使 用 了 16 个 卷 积 核 ， 对 应 16 个 Feature Mapo 需要 注 
意 的 是 ， 这 里 的 16 个 Feature Map 不 是 全 部 连接 到 前 面 的 6 个 Feature Map 的 
输出 的 ， 有 些 只 连接 了 其 中 的 几 个 Feature Map， 这 样 增加 了 模型 的 多 样 
性 。 下 面 的 第 二 个 池 化 层 S4 和 第 一 个 池 化 层 S2 一 致 ， 都 是 2x2 的 降 采 样 。 
接 下 来 的 第 三 个 卷 积 层 C5 有 120 个 卷 积 核 ， 卷 积 大 小 同样 为 5x5， 因 为 输 
入 图 像 的 大 小 刚好 也 是 5x5， 因 此 构成 了 全 连接 ， 也 可 以 算 作 全 连接 层 。 
F6 层 是 一 个 全 连接 层 ， 拥 有 84 个 隐 含 节点 ， 激 活 函 数 为 Sigmoid。LeNet-5 
最 后 一 层 由 欧式 径 向 基 辆 数 (Euclidean Radial Basis Function) 单元 组 
成 ， 它 输出 最 后 的 分 类 结果 。 


C1: feature maps S4: f. maps 16@5x5 
ae. 6@28x28 oe 


| 
Full conection | Gaussian connections 
Convolutions Subsampling Convolutions Subsampling Full connection 


图 5-4 LeNet-5 结 构 示 意图 


5.2 ”TensorFlow 实 现 简单 的 卷 积 网 络 


本 节 将 讲解 如 何 使 用 TensorFlow 实 现 一 个 简单 的 卷 积 神经 网 络 ， 使 用 
的 数据 集 依然 是 MNIST， 预 期 可 以 达到 99.2% 左 右 的 准确 率 。 本 节 将 使 用 
两 个 卷 积 层 加 一 个 全 连接 层 构建 一 个 简单 但 是 非常 有 代表 性 的 卷 积 神经 
网 络 ， 读 者 应 该 能 通过 这 个 例子 掌握 设计 卷 积 神经 网 络 的 要 点 。 


首先 载 入 MNIST 数 据 集 ， 并 创建 默认 的 Pnteractive Session。 本 节 代 码 
主要 来 自 TensorFlow 的 开源 实现 4 o 


from tensorflow.examples.tutorials.mnist import input_data 
import tensorflow as tf 
mnist = input_data.read_data_sets("MNIST_data/", one_hot=True) 


sess = tf.InteractiveSession() 


接 下 来 要 实现 的 这 个 卷 积 神经 网 络 会 有 很 多 的 权重 和 偏 置 需要 创 
建 ， 因 此 我 们 先 定 义 好 初始 化 图 数 以 便 重 复 使 用 。 我 们 需要 给 权重 制造 
一 些 随机 的 噪声 来 打破 完全 对 称 ， 比 如 截断 的 正 态 分 布 噪声 ， 标 准 差 设 
为 0.1。 同 时 因为 我 们 使 用 ReLU ， 也 给 偏 置 增加 一 些小 的 正 值 (0.1) 用 
来 避免 死亡 节点 (dead neurons) o 


def weight_variable(shape): 
initial = tf.truncated_normal(shape, stddev=@.1) 


return tf.Variable(initial) 


def bias_variable(shape): 
initial = tf.constant(@.1, shape=shape) 


return tf.Variable(initial) 


卷 积 层 、 池 化 层 也 是 接 下 来 要 重复 使 用 的 ， 因 此 也 为 他 们 分 别 定 义 
创建 函数 。 这 里 的 tt.nn.conv2d 是 TensorFlow 中 的 2 维 卷 积 图 数 ， 人 参数 中 Xx 是 
输入 ，W 是 卷 积 的 参数 ， 比 如 [5,5,132]: 前 面 两 个 数字 代表 卷 积 核 的 尺 
寸 ; 第 三 个 数字 代表 有 多 少 个 channel。 因 为 我 们 只 有 灰 度 单 色 ， 所 以 是 
1， 如 果 是 彩色 的 RGB 图 片 ， 这 里 应 该 是 3。 最 后 一 个 数字 代表 卷 积 核 的 
数量 ， 也 就 是 这 个 卷 积 层 会 提取 多 少 类 的 特征 。Strides 代 表 卷 积 模板 移动 


的 步 长 ， 都 是 1 代表 会 不 遗漏 地 划 过 图 片 的 每 一 个 点 。Padding 代 表 边 界 的 
处 理 方 式 ， 这 里 的 SAME 代 表 给 边界 加 上 Padding 让 卷 积 的 输出 和 输入 保 
持 同样 (SAME) BYR. tf.nn.max_pools=TensorFlow# AY Be A HH 1h RKI 
数 ， 我 们 这 里 使 用 2x2 的 最 大 闻 化 ， 即 将 一 个 2x2 的 像素 块 降 为 1x1 的 像 
素 。 最 大 闻 化 会 保留 原始 像素 块 中 灰 度 值 最 高 的 那 一 个 像素 ， 即 保留 最 
显著 的 特征 。 因 为 希望 整体 上 缩小 图 片 尺 寸 ， 因 此 闻 化 层 的 strides 也 设 为 
横竖 两 个 方向 以 2 为 步 长 。 如 果 步 长 还 是 1， 那 么 我 们 会 得 到 一 个 尺寸 不 
变 的 图 片 。 


def conv2d(x, W): 
return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding='SAME') 


def max_pool_2x2(x): 
return tf.nn.max_pool(x, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], 
padding='SAME'" ) 


在 正式 设计 卷 积 神经 网 络 的 结构 之 前 ， 先 定义 输入 的 placeholder，x 
是 特征 ，y 是 真实 的 label。 因 为 卷 积 神经 网 络 会 利用 到 空间 结构 信息 ， 
因此 需要 将 1D 的 输入 向 量 转 为 2D 的 图 片 结构 ， 即 从 1x784 的 形式 转 为 原 
始 的 28x28 的 结构 。 同 时 因为 只 有 一 个 颜色 通道 ， 故 最 终 尺 寸 为 
[-1,28,28,1]， 前 面 的 -1 代表 样本 数量 不 固定 ， 最 后 的 1 代表 颜色 通道 数 
量 。 这 里 我 们 使 用 的 tensor 变 形 疯 数 是 tf.reshape。 


x = tf.placeholder(tf.float32, [None, 784]) 
y_ = tf.placeholder(tf.float32, [None, 10]) 
x_image = tf.reshape(x, [-1,28,28,1]) 


接 下 来 定义 我 们 的 第 一 个 卷 积 层 。 我 们 先 使 用 前 面 写 好 的 函数 进行 
参数 初始 化 ， 包 括 weights 和 bias ， 这 里 的 [5,5,1,32] 代 表 卷 积 核 尺寸 为 
5x5，1 个 颜色 通道 ，32 个 不 同 的 卷 积 核 。 然 后 使 用 conv2d 阔 数 进 行 卷 积 
操作 ， 并 加 上 偶 置 ， 接 着 再 使 用 ReLU 激 活 函 数 进 行 非 线性 处 理 。 最 后 ， 
使 用 最 大 池 化 图 数 max_pool_2x2 对 卷 积 的 输出 结果 进行 池 化 操作 。 


W_conv1 = weight_variable([5, 5, 1, 32]) 
b_convi = bias_variable([32]) 
h_convi = tf.nn.relu(conv2d(x_image, W_conv1) + b_conv1) 


h_pool1 = max_pool_2x2(h_conv1) 


现在 定义 第 二 个 卷 积 层 ， 这 个 卷 积 层 基本 和 第 一 个 卷 积 层 一 样 ， 唯 
一 的 不 同 是 ， a 也 就 是 说 这 一 层 的 卷 积 会 提取 64 
种 特征 。 


W_conv2 = weight_variable([5,5,32,64]) 


b_conv2 = bias_variable([64]) 
h_conv2 = tf.nn.relu(conv2d(h_pool1, W_conv2) + b_conv2) 
h_pool2 = max_pool_2x2(h_conv2) 


因为 前 面 经 历 了 两 次 步 长 为 2x2 的 最 大 池 化 ， 所 以 边 长 已 经 只 有 1/4 
了 ， 图 片 尺寸 由 28x28 变 成 了 7x7。 而 第 二 个 卷 积 层 的 卷 积 核 数量 为 64， 
其 输出 的 tensor 尺 寸 即 为 7x7x64。 我 们 使 用 tf.reshape 国 数 对 第 二 个 卷 积 层 
eee 将 其 转 成 1D 的 向 量 ， 然 后 连接 一 个 全 连接 层 ， 隐 
节点 为 1024， 并 使 用 ReLU 激 活 函 数 。 


W_ fc1l = weight_variable([7 * 7 * 64, 1024]) 

b_fc1 = bias _variable([1024]) 

h_pool2_flat = tf.reshape(h_pool2, [-1, 7*7*64]) 

h_fc1 = tf.nn.relu(tf.matmul(h_pool2_ flat, W_fc1) + b_fc1) 


为 了 减轻 过 拟 合 ， 下 面 使 用 一 个 Dropout 层 ，Dropout 的 用 法 第 4 章 已 
经 讲 过 ， 是 通过 一 个 placeholder 传 入 keep_prob 比 率 来 控制 的 。 在 训练 时 ， 
我 们 随机 丢弃 一 部 分 节点 的 数据 来 减轻 过 拟 合 ， 预 测 时 则 保留 全 部 数据 
来 追求 最 好 的 预测 性 能 。 


keep_prob = tf.placeholder(tf.float32) 
h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob) 


最 后 我 们 将 Dropout 层 的 输出 连接 一 个 Softmax 层 ， 得 到 最 后 的 概率 输 
tH 


W_fc2 = weight_variable([1024, 10]) 
b fc2 = bias_variable([10]) 
y_conv=tf.nn.softmax(tf.matmul(h_fc1_drop, W fc2) + b_fc2) 


我 们 定义 损失 函数 为 cross entropy， 和 之 前 一 样 ， 但 是 优化 器 使 用 
Adam， 并 给 予 一 个 比较 小 的 学 习 速率 1e-4。 


cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y_conv), 
reduction_indices=[1])) 


train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_ entropy) 


再 继续 定义 评测 准确 率 的 操作 ， 这 里 和 第 3 章 、 第 4 章 一 样 。 


correct_prediction = tf.equal(tf.argmax(y_conv,1), tf.argmax(y_,1)) 


accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32)) 


下 面 开 始 训练 过 程 。 首 先 依然 是 初始 化 所 有 参数 ， 设 置 训练 时 
Dropout 的 keep_prob 比 率 为 0.5。 然 后 使 用 大 小 为 50 的 mini-batch， 共 进行 
20000 次 训练 迭代 ， 参 与 训练 的 样本 数量 总 共 为 100 万 。 其 中 每 100 次 训 
练 ， 我 们 会 对 准确 率 进行 一 次 评测 (评测 时 keep_prob 设 为 1) ， 用 以 实时 
监测 模型 的 性 能 。 


tf.global variables initializer().run() 
for i in range(20000): 
batch = mnist.train.next_batch(5@) 
if 1%100 == ð: 
train_accuracy = accuracy.eval(feed_dict={x:batch[@], y_: batch[1], 
keep_prob: 1.0}) 
print("step %d, training accuracy %g"%(i, train_accuracy) ) 


train_step.run(feed_dict={x: batch[@], y_: batch[1], keep_prob: 68.5}) 


全 部 训练 完成 后 ， 我 们 在 最 终 的 测试 集 上 进行 全 面 的 测试 ， 得 到 整 
体 的 分 类 准确 率 。 


print("test accuracy *g"%accuracy.eval(feed_dict={ 


x: mnist.test.images, y_: mnist.test.labels, keep prob: 1.0})) 


最 后 ， 这 个 CNN 模 型 可 以 得 到 的 准确 率 约 为 99.2%， 基 本 可 以 满足 对 
手写 数字 识别 准确 率 的 要 求 。 相 比 之 前 MLP 的 2% 错 误 率 ，CNN 的 错误 率 
下 降 了 大 约 60%。 这 其 中 主要 的 性 能 提升 都 来 自 于 更 优秀 的 网 络 设 计 ， 即 
卷 积 网 络 对 图 像 特 征 的 提取 和 抽象 能 力 。 依 靠 卷 积 核 的 权 值 共享 ，CNN 
的 参数 量 并 没有 爆炸 ， 降 低 计 算 量 的 同时 也 减轻 了 过 拟 合 ， 因 此 整个 模 
型 的 性 能 有 和 较 大 的 提升 。 本 节 我 们 只 实现 了 一 个 简单 的 卷 积 神经 网 络 ， 
没有 复杂 的 Trick。 接 下 来 ， 我 们 将 实现 一 个 稍微 复杂 一 些 的 卷 积 网 络 ， 
而 简单 的 MNIST 数 据 集 已 经 不 适合 用 来 评测 其 性 能 ， 我 们 将 使 用 CIFAR- 
104 数据 集 进行 训练 ， 这 也 是 深度 学 习 可 以 大 幅 领 先 其 他 模型 的 一 个 数据 
储 


ALO 


5.3 ”TensorFlow 实 现 进 阶 的 卷 积 网 络 


本 节 使 用 的 数据 集 是 CIFAR-10， 这 是 一 个 经 典 的 数据 集 ， 包 含 60000 
张 32x32 的 彩色 图 像 ， 其 中 训练 集 50000 张 ， 测 试 集 10000 张 。CIFAR-10 如 
同 其 名 字 ， 一 共 标 注 为 10 类 ， 每 一 类 图 片 6000 张 。 这 10 类 分 别 是 
airplane、automobile、bird、cat、deer、dog、frog、horse、ship 和 truck， 
其 中 没有 任何 重生 的 情况 ， 比 如 automobile 只 包括 小 型 汽车 ，truck 只 包括 
卡车 ， 也 不 会 在 一 张 图 片 中 同时 出 现 两 类 物体 。 它 还 有 一 个 兄弟 版 本 
CIFAR-100， 其 中 标注 了 100 类 。 这 两 个 数据 集 是 前 面 章节 提 到 的 深度 学 
习 之 父 Geoffrey Hinton 和 他 的 两 名 学 生 Alex Krizhevsky 和 Vinod Nair 收 集 
的 ， 图 片 来 源 于 80 million tiny images® 这 个 数据 集 ，Hinton 等 人 对 其 进行 
了 筛选 和 标注 。CIFAR-10 数 据 集 非常 通用 ， 经 常 出 现在 各 大 会 议 的 论文 
中 用 来 进行 性 能 对 比 ， 也 曾 出 现在 Kaggle 竞 赛 而 为 大 家 所 知 。 图 5-5 所 示 
为 这 个 数据 集 的 一 些 示例 。 


airplane 


automobile 


bird 


cat 


deer 


dog 


frog 


horse 


ship 


truck 


图 5-5 “CIFAR-10 数 据 集 示例 


许多 论文 中 都 在 这 个 数据 集 上 进行 了 测试 ， 目 前 state-of-the-art 的 工 
作 已 经 可 以 达到 3.5% 的 错误 率 了 ， 但 是 需要 训练 很 义 ， 即 使 在 GPU 上 也 
需要 十 几 个 小 时 。CIFAR-10 数 据 集 上 详细 的 Benchmark 和 排名 上 
classification datasets results 
(http://rodrigob.github.io/are_we_there Welt tn aaa 
lts.html) 。 据 深度 学 习 三 巨头 之 一 LeCun 说 ， 现 有 的 卷 积 神经 网 络 已 经 可 
以 对 CIFAR-10 进 行 很 好 的 学 习 ， 这 个 数据 集 的 问题 已 经 解决 了 。 本 节 中 
实现 的 卷 积 神经 网 络 没有 那么 复杂 (根据 Alex 描 述 的 cuda-convnet 模 型 做 
了 些许 修改 得 到 ) ， 在 只 使 用 3000 个 batch (每 个 batch 包 含 128 个 样本 ) 


时 ， 可 以 达到 73% 左 右 的 正确 率 。 模 型 在 GTX 1080 单 显卡 上 大 概 只 需要 
几 十 秒 的 训练 时 间 ， 如 果 在 CPU 上 训练 则 会 慢 很 多 。 如 果 使 用 100k 个 
batch， 并 结合 学 习 速 度 的 decay ( 即 每 隔 一 段 时 间 将 学 习 速 率 下 降 一 个 比 
率 ) ， 正 确 率 最 高 可 以 到 86% 左 右 。 模 型 中 需要 训练 的 参数 约 为 100 万 
个 ， 而 预测 时 需要 进行 的 四 则 运算 总 量 在 2000 万 次 左右 。 在 这 个 卷 积 神 
经 网 络 模型 中 ， 我 们 使 用 了 一 些 新 的 技巧 。 

(1) 对 weights 进 行 了 L2 的 正则 化 。 


(2) 如 图 5-6 所 示 ， 我 们 对 图 片 进行 了 翻转 、 随 机 剪 切 等 数据 增强 ， 
制造 了 更 多 样本 。 


(3) 在 每 个 卷 积 -最 大 池 化 层 后 面 使 用 了 LRN 层 ， 增 强 了 模型 的 泛 化 
能 力 。 
Data Augmentation: 


a. No augmentation 


图 5-6 ”数据 增强 示例 (水 平 翻转 ， 随 机 裁 切 ) 


我 们 首先 下 载 TensorFlow Models 库 ， 以 便 使 用 其 中 提供 CIFAR-10 数 
据 的 类 。 


git clone https://github.com/tensorflow/models.git 


cd models/tutorials/image/cifar10 


然后 我 们 载 入 一 些 常 用 库 ， 比 如 NumPy 和 time， 并 载 入 TensorFlow 
Models 中 自动 下 载 、 读 取 CIFAR-10 数 据 的 类 。 本 节 代 码 主 要 来 自 


TensorFlow 的 开源 实现 4 。 


import cifar16,cifar16 input 
import tensorflow as tf 
import numpy as np 


import time 


接着 定义 batch_size、 训 练 轮 数 max_steps， 以 及 下 载 CIFAR-10 数 据 的 
默认 路 径 。 


max_steps = 3000 
batch_size = 128 
data_dir = '/tmp/cifar1@_data/cifar-10-batches-bin' 


这 里 定义 初始 化 weight 的 水 数 ， 和 之 前 一 样 依然 使 用 
tf.truncated_normal 截 断 的 正 态 分 布 来 初始 化 权重 。 但 是 这 里 会 给 weight 加 
一 个 L2 的 loss， 相 当 于 做 了 一 个 L2 的 正则 化 处 理 。 在 机 器 学 习 中 ， 不 管 是 
分 类 还 是 回归 任务 ， 都 可 能 因 特 征 过 多 而 导致 过 拟 合 ， 一 般 可 以 通过 减 
少 特 征 或 者 惩罚 不 重要 特征 的 权重 来 缓解 这 个 问题 。 但 是 通常 我 们 并 不 
知道 该 惩罚 哪些 特征 的 权重 ， 而 正则 化 就 是 帮助 我 们 惩罚 特征 权重 的 ， 
即 特征 的 权重 也 会 成 为 模型 的 损失 了 为数 的 一 部 分 。 可 以 理解 为 ， 为 了 使 
用 某 个 特征 ， 我 们 需要 付出 loss 的 代价 ， 除 非 这 个 特征 非常 有 效 ， 否 则 就 
会 被 loss 上 的 增加 覆盖 效果 。 这 样 我 们 就 可 以 筛选 出 最 有 效 的 特征 ， 减 少 
特征 权重 防止 过 拟 合 。 这 也 即 是 奥 卡 姆 剃刀 法 则 ， 越 简单 的 东西 越 有 
效 。 一 般 来 说 ，L1 正 则 会 制造 稀 蚊 的 特征 ， 大 部 分 无 用 特征 的 权重 会 被 
置 为 0， 而 L2 正 则 会 让 特征 的 权重 不 过 大 ， 使 得 特征 的 权重 比较 平均 。 我 
们 使 用 wl 控制 L2 loss 的 大 小 ， 使 用 tf.nn.12_loss 遂 数 计算 weight 的 L2 loss, 
再 使 用 tt.multiply 让 L2 loss 乘 以 wj， 得 到 最 后 的 weight loss。 接 着 ， 我 们 使 
用 tf.add_to_collection 把 weight loss 统 一 存 到 一 个 collection， 这 个 collection 


名 为 “losses”， 它 会 在 后 面 计算 神经 网 络 的 总 体 loss 时 被 用 上 。 


def variable with_weight_loss(shape, stddev, wl): 
var = tf.Variable(tf.truncated_normal(shape, stddev=stddev) ) 
if wl is not None: 
weight_loss = tf.multiply(tf.nn.12_loss(var),wl,name='weight_loss') 
tf.add_to_collection('losses', weight_loss) 


return var 


下 面 使 用 cifar10 类 下 载 数据 集 ， 并 解 讨 、 展 开 到 其 默认 位 置 。 
cifar10.maybe_download_and_extract() 


再 使 用 cifar10_input 类 中 的 distorted_inputs 遂 数 产 生 训 练 需要 使 用 的 数 
据 ， 包 括 特征 及 其 对 应 的 label， MERE ECS E 去 好 的 tensor， 每 次 
执行 都 会 生成 一 个 batch_size 的 数量 的 样本 。 需 要 注意 的 是 我 们 对 数据 进 
行 了 Data Augmentation (数据 增强 ) 。 具体 的 实现 细节 ， 读者 可 以 查看 
cifar10_input.distorted_inputs 遂 数 ， 其 中 的 mae 强 操作 包括 随机 的 水 平 
翻转 (tf.image.random_flip_left_right) 、 随 机 前 t+ 一 块 24x24 大 小 的 图 片 
( tfrandom crop ) 、 设 置 随 机 a0 z EM şt Æ 
(tf.image.random_brightness, tf.image.random_contrast) ， 以 及 对 数据 进 
行 标准 化 timage.per_image_whitening (对 数据 减 去 均值 ， 除 以 方差 ， 保 
证 数据 零 均值 ， 方 差 为 1) 。 通 过 这 些 操作 ， 我 们 可 以 获得 更 多 的 样本 
( 带 噪声 的 ) ， 原 来 的 一 张 图 片 样本 可 以 变 为 多 张 图 片 ， 相 当 于 扩大 样 
本 量 ， 对 提高 准确 率 非 常 有 帮助 。 需 要 注意 的 是 ， 我 们 对 图 像 进行 数据 
增强 的 操作 需要 耗费 大 量 CPU 时 间 ， 因 此 distorted Re alla Deere 
的 线程 来 加 速 任务 ， 遂 数 内 部 会 产生 线程 闻 ， 在 需要 使 用 时 会 通过 
TensorFlow queue 进 行 调度 。 


images_ train, labels train = cifar10_input.distorted_inputs( 


data_dir=data_dir, batch_size=batch_size) 


我 们 再 使 用 cifar10_input.inputs 了 国 数 生成 测试 数据 ， 这 里 不 需要 进行 
太 多 处 理 ， 不 需要 对 图 片 进 行 翻转 或 修改 亮度 、 sn ig 二 裁剪 
图 片 正中 间 的 24x24 大 小 的 区 块 ， 并 进行 数据 标准 化 操作 。 


images test, labels test = cifar1@_input.inputs(eval_data=True, 
data_dir=data_dir, 


batch_size=batch_size) 


这 里 创建 输入 数据 的 placeholder ， 包 括 特征 和 label。 在 设 定 
placeholder 的 数据 尺寸 时 需要 注意 ， 因 为 batch_size 在 之 后 定义 网 络 结构 时 
被 用 到 了 ， 所 以 数据 尺寸 中 的 第 一 个 值 即 样本 条 数 需 要 被 预先 设 定 ， 而 
不 能 像 以 前 一 样 可 以 设 为 None。 而 数据 尺寸 中 的 图 片 尺寸 为 24x24， 即 是 
裁剪 后 的 大 小 ， 而 颜色 通道 数 则 设 为 3， 代 表 图 片 是 彩色 有 RGB 三 条 通 


道 。 


image_holder = tf.placeholder(tf.float32, [batch size, 24, 24, 3]) 
label_holder = tf.placeholder(tf.int32, [batch_size]) 


做 好 了 准备 工作 ， 接 下 来 开始 创建 第 一 个 卷 积 层 。 先 使 用 之 前 写 好 
的 variable_with_weight_loss 冰 数 创 建 卷 积 核 的 参数 并 进行 初始 化 。 第 一 个 
卷 积 层 使 用 5x5 的 卷 积 核 大 小 ，3 个 颜色 通道 ，64 个 卷 积 核 ， 同 时 设置 
weight 初 始 化 函数 的 标准 差 为 0.05。 我 们 不 对 第 一 个 卷 积 层 的 weight 进 行 
L2 的 正则 ， 因 此 wl (weight loss) 这 一 项 设 为 0。 下 面 使 用 tt.nn.conv2d 辑 
数 对 输入 数据 image_holder 进 行 卷 积 操作 ， 这 里 的 步 长 stride 均 设 为 1， 
padding 模 式 为 SAME。 把 这 层 的 bias 全 部 初始 化 为 0， 再 将 卷 积 的 结果 加 
上 bias， 最 后 使 用 一 个 ReLU 激 活 孙 数 进 行 非 线 性 化 。 在 ReLU 激 活 函 数 之 
后 ， 我 们 使 用 一 个 尺寸 为 3x3 且 步 长 为 2x2 的 最 大 池 化 层 处 理 数 据 ， 注 意 
这 里 最 大 池 化 的 尺寸 和 步 长 不 一 致 ， 这 样 可 以 增加 数据 的 丰富 性 。 再 之 
后 ， 我 们 使 用 tt.nn.lm 国 数 ， 即 LRN 对 结果 进行 处 理 。LRN 最 早 见 于 Alex 
那 篇 用 CNN 参 加 ImageNet 比 赛 的 论文 ，Alex 在 论文 中 解释 LRN 层 模仿 了 
生物 神经 系统 的 “ 侧 抑 制 * 机 制 ， 对 局 部 神经 元 的 活动 创建 竞争 环境 ， 使 
得 其 中 响应 比较 大 的 值 变 得 相对 更 大 ， 并 抑制 其 他 反馈 较 小 的 神经 元 ， 
增强 了 模型 的 泛 化 能 力 。Alex 在 ImageNet 数 据 集 上 的 实验 表明 ， 使 用 
LRN 后 CNN 在 Top1 的 错误 率 可 以 降低 1.4%， 因 此 在 其 经 典 的 AlexNet 中 使 
用 了 LRN 层 。LRN 对 ReLU 这 种 没有 上 限 边 界 的 激活 函数 会 比较 有 用 ， 
为 它 会 从 附近 的 多 个 卷 积 核 的 响应 (Response) 中 挑选 比较 大 的 反馈 ， 但 
不 适合 Sigmoid 这 种 有 固定 边界 并 且 能 抑制 过 大 值 的 激活 函数 。 


weight1 = variable with weight loss(shape=[5, 5, 3, 64], stddev=5e-2, 
wl=0.0) 

kernel1 = tf.nn.conv2d(image_ holder, weight1, [1, 1, 1, 1], padding="SAME' ) 

bias1 = tf.Variable(tf.constant(@.0, shape=[64]) ) 

convi = tf.nn.relu(tf.nn.bias_add(kernel1, bias1)) 

pool1 = tf.nn.max_pool(conv1, ksize=[1, 3, 3, 1], strides=[1, 2, 2, 1], 
padding='SAME' ) 

norm1 = tf.nn.1irn(pool1, 4, bias=1.0, alpha=@.00@1 / 9.0, beta=0.75) 


现在 来 创建 第 二 个 卷 积 层 ， 这 里 的 步骤 和 第 一 步 很 像 ， 区 别 如 下 。 
上 一 层 的 卷 积 核 数量 为 64 ( 即 输出 64 个 通道 ) ， 所 以 本 层 卷 积 核 尺 寸 的 
第 三 个 维度 即 输入 的 通道 数 也 需要 调整 为 64; 还 有 一 个 需要 注意 的 地 方 
是 这 里 的 bias 值 全 部 初始 化 为 0.1， 而 不 是 90。 最 后 ， 我 们 调换 了 最 大 池 化 
层 和 LRN 层 的 顺序 ， 先 进行 LRN 层 处 理 ， 再 使 用 最 大 池 化 层 。 


weight2 = variable with_weight_loss(shape=[5, 5, 64, 64], stddev=5e-2, 
wl=0@.0) 

kernel2 = tf.nn.conv2d(norm1, weight2, [1, 1, 1, 1], padding='SAME') 

bias2 = tf.Variable(tf.constant(@.1, shape=[64]) ) 


conv2 = tf.nn.relu(tf.nn.bias_add(kernel2, bias2)) 

norm2 = tf.nn.irn(conv2, 4, bias=1.0, alpha=@.001 / 9.0, beta=@.75) 

pool2 = tf.nn.max_pool(norm2, ksize=[1, 3, 3, 1], strides=[1, 2, 2, 1], 
padding='SAME' ) 


在 两 个 卷 积 层 之 后 ， 将 使 用 一 个 全 连接 层 ， 需要 先 把 前 面 两 个 
卷 积 层 的 输出 结果 全 部 flatten， ma prea 维 
向 量 。 我 们 使 用 get_shape 函 数 ， 获 取 数 据 扇 平 化 之 后 的 长 度 。 接 着 使 用 
variable_ with_weight_loss 了 为 数 对 全 连接 层 的 weight 进 行 初始 化 ， 这 里 隐 含 

节点 数 为 384， 正 态 分 布 的 标准 差 设 为 0.04，bias 的 值 也 初始 化 为 0.1。 需 
要 注意 的 是 我 们 希望 这 个 全 连接 层 不 要 过 拟 合 ， 因 此 设 了 一 个 非 零 的 
weight loss 值 0.04， 让 这 一 层 的 所 有 参数 都 被 L2 正 则 所 约束 。 最 后 我 们 依 
然 使 用 ReLU 激 活 函 数 进行 非 线性 化 。 


reshape = tf.reshape(pool2, [batch_size, -1]) 

dim = reshape.get_shape()[1].value 

weight3 = variable with_weight_loss(shape=[dim, 384], stddev=0.04, wl=0.004) 
bias3 = tf.Variable(tf.constant(@.1, shape=[384]) ) 

local3 = tf.nn.relu(tf.matmul(reshape, weight3) + bias3) 


接 下 来 的 这 个 全 连接 层 和 前 一 层 很 像 ， 只 不 过 其 隐 含 节点 数 下 降 了 
一 半 ， 只 有 192 个 ， 其 他 的 超 参数 保持 不 变 。 


weight4 = variable with_weight_loss(shape=[384, 192], stddev=0.04, wl=0.004) 
bias4 = tf.Variable(tf.constant(@.1, shape=[192])) 
local4 = tf.nn.relu(tf.matmul(local3, weight4) + bias4) 


下 面 是 最 后 一 层 ， 依 然 先 创建 这 一 层 的 weight， 其 正 态 分 布 标准 差 设 
为 上 一 个 隐 含 层 的 节点 数 的 倒数 ， 并 且 不 计 入 L2 的 正则 。 需 要 注意 的 
是 ， 这 里 不 像 之 前 那样 使 用 softmax 输 出 最 后 结果 ， 这 是 因为 我 们 把 
softmax 的 操作 放 在 了 计算 loss 的 部 分 。 我 们 不 需要 对 inference 的 输出 进行 
softmax 处 理 就 可 以 获得 最 终 分 类 结果 (直接 比较 inference 输 出 的 各 类 的 
数值 大 小 即 可 ) ， 计 算 softmax 主 要 是 为 了 计算 loss， 因 此 softmax 操 作 整 
合 到 后 面 是 比较 合适 的 。 


weight5 = variable with weight loss(shape=[192, 10], stddev=1/192.0, wl=0.0) 
biasS = tf.Variable(tf.constant(@.@, shape=[10])) 
logits = tf.add(tf.matmul(local4, weight5), bias5) 


到 这 里 就 完成 了 整个 网 络 inference 的 部 分 。 梳 理 整 个 网 络 结构 可 以 得 
到 表 5-1。 从 上 到 下 ， 依 次 是 整个 卷 积 神经 网 络 从 输入 到 输出 的 流程 。 可 
以 观察 到 ， 其 实 设计 CNN 主 要 就 是 安排 卷 积 层 、 池 化 层 、 全 连接 层 的 分 
布 和 顺序 ， 以 及 其 中 超 参 数 的 设置 、Trick 的 使 用 等 。 设 计 性 能 良好 的 
CNN 是 有 一 定 规律 可 循 的 ， 但 是 想 要 针对 某 个 问题 设计 最 合适 的 网 络 结 
构 ， 是 需要 大 量 实践 摸索 的 。 


5-1 卷 积 神经 网 络 结构 表 


Layer 名 称 


Ht 


卷 积 层 和 ReLU 激活 函数 


convl 


pooll 最 大 池 化 

norml LRN 

conv2 HIREM ReLU 激活 函数 
norm2 LRN 

pool2 最 大 池 化 

local3 全 连接 层 和 ReLU 激活 函数 
local4 全 连接 层 和 ReLU 激活 函数 
logits 模型 Inference 的 输出 结果 


完成 了 模型 inference 部 分 的 构建 ， 接 下 来 计算 CNN 的 loss。 这 里 依然 
使 用 cross entropy， 需 要 注意 的 是 我 们 把 softmax 的 计算 和 cross entropy loss 
的 计算 合 在 了 一 起 ， 即 tt.nn.sparse_softmax_cross_entropy_with_logits。 这 
里 使 用 tf.reduce_mean 对 cross entropy 计 算 均 值 ， 再 使 用 tt.add_to_collection 
把 cross entropy 的 loss 添 加 到 整体 losses 的 collection 中 。 最 后 ， 使 用 tf.add_n 
将 整体 losses 的 collection 中 的 全 部 loss 求 和 ， 得 到 最 终 的 loss， 其 中 包括 
cross entropy loss， 还 有 后 两 个 全 连接 层 中 weight 的 L2 loss。 


def loss(logits, labels): 
labels = tf.cast(labels, tf.int64) 
cross entropy = tf.nn.sparse_softmax_cross_entropy_with_logits( 
logits=logits, labels=labels, name='cross_entropy_per_example' ) 
cross entropy mean = tf.reduce_mean(cross_ entropy, 
name='cross_entropy' ) 


tf.add_to_collection('losses', cross_entropy_mean) 


return tf.add_n(tf.get_collection('losses'), name='total_loss') 


接着 将 logits 节 点 和 label_placeholder 传 入 loss 遂 数 获得 最 终 的 loss。 
loss = loss(logits,label_holder) 
优化 器 依然 选择 Adam Optimizer, FIR IRA 1e-3. 


train_op = tf.train. AdamOptimizer(1e-3).minimize(loss) 


使 用 ttnn.in_top_k 国 数 求 输出 结果 中 top k 的 准确 率 ， 默 认 使 用 top 1, 
也 就 是 输出 分 数 最 高 的 那 一 类 的 准确 率 。 


top_k_op = tf.nn.in_top_k(logits,label_holder, 1) 


使 用 tt.InteractiveSession 创 建 默 认 的 session， 接 着 初始 化 全 部 模型 参 
数 。 


sess = tf.InteractiveSession() 


tf.global variables initializer().run() 


这 一 步 是 启动 前 面 提 到 的 图 片 数 据 增强 的 线程 队列 ， 这 里 一 共 使 用 
了 16 个 线程 来 进行 加 速 。 注 意 ， 如 果 这 里 不 启动 线程 ， 那 么 后 续 的 
inference 及 训练 的 操作 都 是 无 法 开始 的 。 


tf.train.start_queue_runners() 


现在 正式 开始 训练 。 在 每 一 个 step 的 训练 过 程 中 ， 我 们 需要 先 使 用 
session 的 run 方 法 执行 images_train、labels_train 的 计算 ， 获 得 一 个 batch 的 
训练 数据 ， 再 将 这 个 batch 的 数据 传 入 train_op 和 1loss 的 计算 。 我 们 记录 每 
一 个 step 人 花费 的 时 间 ， 每 隔 10 个 step 会 计算 并 展示 当前 的 loss、 每 秒 钟 能 训 
练 的 样本 数量 ， 以 及 训练 一 个 batch 数 据 所 人 花费 的 时 间 ， 这 样 就 可 以 比较 
方便 地 监控 整个 训练 过 程 。 在 GTX 1080 上 ， 每 秒 钟 可 以 训练 大 约 1800 个 
样本 ， 如 果 batch_size 为 128， 则 每 个 batch 大 约 需 要 0.066s。 损 失 loss 在 一 
开始 大 约 为 4.6， 在 经 过 了 3000 步 训练 后 会 下 降 到 1.0 附 近 。 


for step in range(max_steps): 
start_time = time.time() 
image _batch,label_ batch = sess.run([images train, labels train]) 
_, loss_value = sess.run([train_op, loss], 
feed _dict={image holder: image batch, label_holder:label_batch}) 


duration = time.time() - start_time 


if step % 10 == 
examples_per_sec = batch_size / duration 


sec_per_batch = float(duration) 


format_str=('step %d,loss=%.2f (%.1f examples/sec; %.3f sec/batch)') 


print(format_str % (step,loss_value,examples_per_sec,sec_per_batch) ) 


接 下 来 评测 模型 在 测试 集 上 的 准确 率 。 测 试 集 一 共有 10000 个 样本 ， 
但 是 需要 注意 的 是 ， 我 们 依然 要 像 训练 时 那样 使 用 固定 的 batch_size， 然 
后 一 个 batch 一 个 batch 地 输入 测试 数据 。 我 们 先 计 算 一 共 要 多 少 个 batch 才 
能 将 全 部 样本 评测 完 。 同 时 ， 在 每 一 个 step 中 使 用 session 的 run 方 法 获取 
images_test、]labels_test 的 batch ， 和 再 执行 top_k_op 计 算 模 型 在 这 个 batch 的 
top 1 上 预测 正确 的 样本 数 。 最 后 汇总 所 有 预测 正确 的 结果 ， 求 得 全 部 测 
试 样本 中 预测 正确 的 数量 。 


num_examples = 16666 

import math 

num_iter = int(math.ceil(num_examples / batch_size)) 

true_count = @ 

total_sample_ count = num_iter * batch_size 

step = @ 

while step < num_iter: 
image _batch,label_ batch = sess.run([images_ test,labels test]) 
predictions = sess.run([top_k_op],feed_dict={image holder: image batch, 

label_holder:label_batch}) 

true_count += np.sum(predictions) 


step += 1 


最 后 将 准确 率 的 评测 结果 计算 并 打印 出 来 。 


precision = true_count / total sample count 


print('precision @ 1 = %.3f' % precision) 


最 终 ， 在 CIFAR-10 数 据 集 上 ， 通 过 一 个 短 时 间 小 迭代 次 数 的 训练 ， 
可 以 达到 大 致 73% 的 准确 率 。 持 续 增加 max_steps， 可 以 期 望 准确 率 逐 渐 


增加 。 如 果 max_steps 比 较 大 ， 则 推荐 使 用 学 习 速 率 衰减 (decay) 的 SGD 
进行 训练 ， 这 样 训练 过 程 中 能 达到 的 准确 率 峰 值 会 比较 高 ， 大 致 接近 
86%。 而 其 中 L2 正 则 及 LRN 层 的 使 用 都 对 模型 准确 率 有 提升 作用 ， 他 们 
都 可 以 从 某 些 方面 提升 模型 的 泛 化 性 。 


数据 增强 (Data Augmentation) 在 我 们 的 训练 中 作用 很 大 ， 它 可 以 给 
单 幅 图 增加 多 个 副本 ， 提 高 图 片 的 利用 率 ， 防 止 对 某 一 张 图 片 结构 的 学 
习 过 拟 合 。 这 刚好 是 利用 了 图 片 数据 本 身 的 性 质 ， 图 片 的 元 余 信息 量 比 
较 大 ， 因 此 可 以 制造 不 同 的 噪声 并 让 图 片 依然 可 以 被 识别 出 来 。 如 果 神 
经 网 络 可 以 克服 这 些 噪声 并 准确 识别 ， 那 么 它 的 泛 化 性 必然 会 很 好 。 数 
据 增 强大 大 增加 了 样本 量 ， 而 数据 量 的 大 小 恰恰 是 深度 学 习 最 看 重 的 ， 
深度 学 习 可 以 在 图 像 识 别 上 领先 其 他 算法 的 一 大 因素 就 是 它 对 海量 数据 
的 利用 效率 非常 高 。 用 其 他 算法 ， 可 能 在 数据 量 大 到 一 定 程度 时 ， 准 确 
率 就 不 再 上 升 了 ， 而 深度 学 习 只 要 提供 足够 多 的 样本 ， 准 确 率 基本 可 以 
持续 提升 ， 所 以 说 它 是 最 适合 大 数据 的 算法 。 如 图 5-6 所 示 ， 传 统 的 机 器 
学 习 算法 在 获取 了 一 定量 的 数据 后 ， 准 确 率 上 升 曲线 就 接近 瓶颈 ， 而 神 
经 网 络 则 可 以 持续 上 升 到 更 高 的 准确 率 才 接近 瓶颈 。 规 模 越 大 越 复杂 的 
神经 网 络 模型 ， 可 以 达到 的 准确 率 水 平 越 高 ， 但 是 也 相应 地 需要 更 多 的 
数据 才能 训练 好 ， 在 数据 量 小 时 反而 容易 过 拟 合 。 我 们 可 以 看 到 Large 
NN 在 数据 量 小 的 时 候 ， 并 不 比 单 规 算法 好 ， 直 到 数据 量 持续 扩大 才 慢 慢 
超越 了 常规 算法 、Small NN 和 Medium NN， 并 在 最 后 达到 了 一 个 非常 高 
的 准确 率 。 根 据 Alex 在 cuda-convnet 上 的 测试 结果 ， 如 果 不 对 CIFAR-10 数 
据 使 用 数据 增强 ， 那 么 错误 率 最 低 可 以 下 降 到 17%; 使 用 数据 增强 后 ， 错 
误 率 可 以 下 降 到 11% 左 右 ， 模 型 性 能 的 提升 非常 显著 。 
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图 5-6 ”传统 机 器 学 习 算 法 和 深度 学 习 在 不 同 数据 量 下 的 表现 


从 本 章 的 例子 中 可 以 发 现 ， 卷 积 层 一 般 需 要 和 一 个 池 化 层 连接 ， 卷 
积 加 池 化 的 组 合 目前 已 经 是 做 图 像 识 别 时 的 一 个 标准 组 件 了 。 卷 积 网 络 
最 后 的 几 个 全 连接 层 的 作用 是 输出 分 类 结果 ， 前 面 的 卷 积 层 主要 做 特征 
提取 的 工作 ， 直 到 最 后 的 全 连接 层 才 开始 对 特征 进行 组 合 匹配 ， 并 进行 
分 类 。 卷 积 层 的 训练 相对 于 全 连接 层 更 复杂 ， 训 练 全 连接 层 基 本 是 进行 
一 些 矩 阵 乘法 运算 ， 而 目前 卷 积 层 的 训练 基本 依赖 于 cuDNN 的 实现 〈 另 
有 nervana 公 司 的 neon 也 占有 一 席 之 地 ) 。 其 中 的 算法 相对 复杂 ， 有 些 方 
法 〈 比 如 Facebook 开 源 的 算法 ) 还 会 涉及 传 里 叶 变 换 。 同 时 ， 卷 积 层 的 
使 用 有 很 多 Trick， 除 了 本 章 提 到 的 方法 ， 实 际 上 有 很 多 方法 可 以 防止 
CNN 过 拟 合 ， 加 快 收敛 速度 或 者 提高 泛 化 性 ， 这 些 会 在 后 续 章 节 中 讲 
解 。 


6 ”TensorFlow 实 现 经 典 卷 积 神经 网 络 


本 章 将 介绍 4 种 经 典 的 卷 积 神经 网 络 ， 分 别 是 AlexNet*s 、VGGNet4 
、 Google Inception Net” 和 ResNet4 ， 这 4 种 网 络 依照 出 现 的 先后 顺序 排 
列 ， 深 度 和 复杂 度 也 依次 递 进 。 它 们 分 别 获得 了 ILSVRC (ImageNet 
Large Scale Visual Recognition Challenge) ”比赛 分 类 项 目的 2012 年 冠军 
(top-5 错 误 率 16.4%， 使 用 额外 数据 可 达到 15.3%，8 层 神经 网 络 ) 、2014 
年 亚军 (top-5 错 误 率 7.3%，19 层 神经 网 络 ) ，2014 年 冠军 (top-5 错 误 率 
6.7%，22 层 神经 网 络 ) 和 2015 年 的 冠军 (top-5 错 误 率 3.57%，152 层 神经 
网 络 ) 。 这 4 个 经 典 的 网 络 都 在 各 自 的 年 代 率 先 使 用 了 很 多 先进 的 卷 积 神 
经 网 络 结构 ， 对 卷 积 网 络 乃 至 深度 学 习 有 非常 大 的 推动 作用 ， 也 象征 了 
卷 积 神经 网 络 在 2012 一 2015 这 四 年 间 的 快速 发 展 。 如 图 6-1 所 示 ， 
ILSVRC 的 top-5 错 误 率 在 最 近 几 年 取得 重大 突破 ， 而 主要 的 突破 点 都 是 在 
深度 学 习 和 卷 积 神经 网 络 ， 成 绩 的 大 幅 提 升 几乎 都 伴随 着 卷 积 神经 网 络 
的 层 数 加 深 。 而 传统 机 器 学 习 算 法 目前 在 ILSVRC 上 已 经 难以 追 上 深度 学 
习 的 步伐 了 ， 以 至 于 逐渐 被 称 为 浅 层 学 习 (Shallow Learning) 。 目 前 在 
ImageNet” 数据 集 上 人 有 眼 能 达到 的 错误 率 大 概 在 5.1%， 这 还 是 经 过 了 大 量 
训练 的 专家 能 达到 的 成 绩 ， 一 般 人 要 区 分 1000 种 类 型 的 图 片 是 比较 困难 
的 。 而 ILSVRC 2015 年 冠军 一 一 152 层 ResNet 的 成 绩 达 到 错误 率 3.57%, 已 
经 超过 了 人 眼 ， 这 说 明 卷 积 神经 网 络 已 经 基本 解决 了 ImageNet 数 据 集 上 
的 图 片 分 类 问题 。 
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图 6-1 历届 ILSVRC 比 赛 代表 性 模型 的 成 绩 及 其 神经 网 络 深度 


前 面 提 到 的 计算 机 视觉 比赛 ILSVRC 使 用 的 数据 都 来 自 ImageNet， 如 
图 6-2 所 示 。ImageNet 项 目 于 2007 年 由 斯 坦 福 大 学 华人 教授 李 飞 飞 创 办 ， 
目标 是 收集 大 量 带 有 标注 信息 的 图 片 数据 供 计算 机 视觉 模型 训 乡 
ImageNet 拥 有 1500 万 张 标注 过 的 高 清 图 片 ， 总 共 拥 有 22000 类 ， 其 中 约 有 
100 万 张 标 注 了 图 片 中 主要 物体 的 定位 边框 。 ImageNet 项 目 最 早 的 灵感 来 
自 于 人 类 通过 视觉 学 习 世 界 的 方式 ， 如 果 假 定 儿 童 的 眼睛 是 生物 照相 
机 ， 他 们 平均 每 200ms 就 拍照 一 次 (眼球 转动 一 epee ely E 那么 3 
岁 大 时 孩子 就 已 经 看 过 了 上 亿 张 真实 世界 的 照片 ， 可 以 算得 上 是 一 个 非 
常 大 的 数据 集 。ImageNet 项 目下 载 了 互联 网 上 近 10 亿 张 图 片 ， gaat 
逊 的 土耳其 机 器 人 平台 实现 众 包 的 标注 过 程 ， 有 来 自 世 界 上 167 个 国家 的 
近 5 万 名 工作 者 帮忙 一 起 筛选 、 标 注 。 


图 6- 2 ImageNet 数 据 集 图 片 示 示 例 


每 年 度 的 ILSVRC 比 赛 数 据 集 中 大 概 拥有 120 万 张 图 片 ， 以 及 1000 类 
的 标注 ， 是 ImageNet 全 部 数据 的 一 个 子 集 。 上 比赛 一 般 采 用 top-5 和 top-1 分 
类 错误 率 作为 模型 性 能 的 评测 指标 ， 图 6-3 所 示 为 AlexNet 识 别 ILSVRC 数 
据 集中 图 片 的 情况 ， 每 张 图 片 下 面 是 分 类 预测 得 分 最 高 的 5 个 分 类 及 其 分 
值 。 
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图 6-3 ”AlexNet 识 别 ILSVRC 数 据 集 的 top-5 分 类 


6.1 ”TensorFlow 实 现 AlexNet 


2012 年 ，Hinton 的 学 生 Alex Krizhevsky 提 出 了 深度 卷 积 神经 网 络 模 型 
AlexNet， 它 可 以 算是 LeNet 的 一 种 更 深 更 宽 的 版 本 。AlexNet 中 包含 了 几 
个 比较 新 的 技术 点 ， 也 首次 在 CNN 中 成 功 应 用 了 ReLU、Dropout 和 LRN 
等 Trick。 同 时 AlexNet 也 使 用 了 GPU 进行 运算 加 速 ， 作 者 开源 了 他 们 在 
GPU 上 训练 卷 积 神经 网 络 的 CUDA 代码。AlexNet 包 含 了 6 亿 3000 万 个 连 
接 ，6000 万 个 参数 和 65 万 个 神经 元 ， 拥 有 5 个 卷 积 层 ， 其 中 3 个 卷 积 层 后 
面 连接 了 最 大 池 化 层 ， 最 后 还 有 3 个 全 连接 层 。AlexNet 以 显著 的 优势 赢 
得 了 竞争 激烈 的 ILSVRC 2012 比 赛 ，top-5 的 错误 率 降 低 至 了 16.4% ， 相 比 
第 二 名 的 成 绩 26.2% 错 误 率 有 了 巨大 的 提升 。AlexNet 可 以 说 是 神经 网 络 
在 低谷 期 后 的 第 一 次 发 声 ， 确 立 了 深度 学 习 (深度 卷 积 网 络 ) 在 计算 机 
视觉 的 统治 地 位 ， 同 时 也 推动 了 深度 学 习 在 语音 识别 、 自 然 语言 处 理 、 
强化 学 习 等 领域 的 拓展 。 


AlexNet 将 LeNet 的 思想 发 扬 光 大 ， 把 CNN 的 基本 原理 应 用 到 了 很 深 
很 宽 的 网 络 中 。AlexNet 主 要 使 用 到 的 新 技术 点 如 下 。 


(1) 成 功 使 用 ReLU 作 为 CNN 的 激活 函数 ， 并 验证 其 效果 在 较 深 的 
网 络 超过 了 Sigmoid， 成 功 解决 了 Sigmoid 在 网 络 较 深 时 的 梯度 弥散 问题 。 
虽然 ReLU 激 活 函 数 在 很 久之 前 就 被 提出 了 ， 但 是 直到 AlexNet 的 出 现 才 将 
其 发 扬 光 大 。 

(2) 训练 时 使 用 Dropout 随 机 忽略 一 部 分 神经 元 ， 以 避免 模型 过 拟 
合 。Dropout 虽 有 单独 的 论文 论述 ， 但 是 AlexNet 将 其 实用 化 ， 通 过 实践 证 
实 了 它 的 效果 。 在 AlexNet 中 主要 是 最 后 几 个 全 连接 层 使 用 了 Dropout。 


(3) 在 CNN 中 使 用 重 亚 的 最 大 池 化 。 此 前 CNN 中 普遍 使 用 平均 池 
化 ，AlexNet 全 部 使 用 最 大 池 化 ， 避 免 平均 池 化 的 模糊 化 效果 。 并 且 
AlexNet 中 提出 让 步 长 比 池 化 核 的 玉 寸 小 ， 这 样 池 化 层 的 输出 之 间 会 有 重 
ZEA, EH TENESI 


(4) 提出 了 LRN 层 ， 对 局 部 神经 元 的 活动 创建 竞争 机 制 ， 使 得 其 中 
响应 比较 大 的 值 变 得 相对 更 大 ， 并 抑制 其 他 反馈 较 小 的 神经 元 ， 增 强 了 
模型 的 泛 化 能 力 。 

(5) 使 用 CUDA 加 速 深度 卷 积 网 络 的 训练 ， 利 用 GPU 强 大 的 并 行 计 
算 能 力 ， 处 理 神经 网 络 训练 时 大 量 的 矩阵 运算 。AlexNet 使 用 了 两 块 GTX 
580 GPU 进行 训练 ， 单 个 GTX 580 只 有 3GB 显 存 ， 这 限制 了 可 训练 的 网 络 
的 最 大 规模 。 因 此 作者 将 AlexNet 分 布 在 两 个 GPU 上 ， 在 每 个 GPU 的 显存 
中 储存 一 半 的 神经 元 的 参数 。 因 为 GPU 之 间 通 信 方 便 ， 可 以 互相 访问 显 
存 ， 而 不 需要 通过 主机 内 存 ， 所 以 同时 使 用 多 块 GPU 也 是 非常 高 效 的 。 
同时 ，AlexNet 的 设计 让 GPU 之 间 的 通信 和 在 网 络 的 某 些 层 进行 ， 控 制 了 
通信 的 性 能 损耗 。 

(6) 数据 增强 ， 随 机 地 从 256x256 的 原始 图 像 中 截取 224x224 大 小 的 
区 域 (以 及 水 平 翻转 的 镜像 ， 相 当 于 增加 了 (256-224)2 x2=2048 倍 的 数 
据 量 。 如 果 没 有 数据 增强 ， 仅 靠 原 始 的 数据 量 ， 参 数 众多 的 CNN 会 陷入 
过 拟 合 中 ， 使 用 了 数据 增强 后 可 以 大 大 减轻 过 拟 合 ， 提 升 泛 化 能 力 。 进 
行 预测 时 ， 则 是 取 图 片 的 四 个 角 加 中 间 共 5 个 位 置 ， 并 进行 左右 翻转 ， 一 
共 获 得 10 张 图 片 ， 对 他 们 进行 预测 并 对 10 次 结果 求 均值 。 同 时 ，AlexNet 
论文 中 提 到 了 会 对 图 像 的 RGB 数据 进行 PCA 处 理 ， 并 对 主 成 分 做 一 个 标 
准 差 为 0.1 的 高 斯 扰动 ， 增 加 一 些 噪声 ， 这 个 Trick 可 以 让 错误 率 再 下 降 
1%. 

整个 AlexNet 有 8 个 需要 训练 参数 的 层 (不 包括 池 化 层 和 LRN 层 ) ， 
前 5 层 为 卷 积 层 ， 后 3 层 为 全 连接 层 ， 如 图 6-4 所 示 。AlexNet 最 后 一 层 是 有 
1000 类 输出 的 Softmax 层 用 作 分 类 。 LRN 层 出 现在 第 1 个 及 第 2 个 卷 积 层 
后 ， 而 最 大 池 化 层 出 现 在 两 个 LRN 层 及 最 后 一 个 卷 积 层 后 。ReLU 激 活 疗 
数 则 应 用 在 这 8 层 每 一 层 的 后 面 。 因 为 AlexNet 训 练 时 使 用 了 两 块 GPU， 
因此 这 个 结构 图 中 不 少 组 件 都 被 拆 为 了 两 部 分 。 现 在 我 们 GPU 的 显存 可 
以 放下 全 部 模型 参数 ， 因 此 只 考虑 一 块 GPU 的 情况 即 可 。 
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图 6-4 ”AlexNet 的 网 络 结构 


AlexNet 每 层 的 超人 参数 如 图 6-5 所 示 。 其 中 输入 的 图 片 尺寸 为 
224x224， 第 一 个 卷 积 层 使 用 了 较 大 的 卷 积 核 尺 寸 11x11， 步 长 为 4， 有 96 
TERZ, 紧 接 着 一 个 LRN 层 ; 然后 是 一 个 3x3 的 最 大 池 化 层 ， 步 长 为 
2。 这 之 后 的 卷 积 核 尺 寸 都 比较 小 ， 都 是 5x5 或 者 3x3 的 大 小 ， 并 且 步 长 都 
为 1， 即 会 扫描 全 图 所 有 像素 ; 而 最 大 池 化 层 依然 保持 为 3*3， 并 且 步 长 
为 2。 我 们 可 以 发 现 一 个 比较 有 意思 的 现象 ， 在 前 几 个 卷 积 层 ， 虽 然 计 算 
量 很 大 ， 但 参数 量 很 小 ， 都 在 1M 左 右 甚 至 更 小 ， 只 占 AlexNet 总 参数 量 的 
很 小 一 部 分 。 这 就 是 卷 积 层 有 用 的 地 方 ， 可 以 通过 较 小 的 参数 量 提取 有 
效 的 特征 。 而 如 果 前 几 层 直 接 使 用 全 连接 层 ， 那 么 参数 量 和 计算 量 将 成 
为 天 文 数字 。 虽 然 每 一 个 卷 积 层 占 整个 网 络 的 参数 量 的 1% 都 不 到 ， 但 是 
如 果 去 掉 任 何 一 个 卷 积 层 ， 都 会 使 网 络 的 分 类 性 能 大 幅 地 下 降 。 


params AlexNet FLOPs 
4M | FC 1000 4M 
16M | FC 4096 / ReLU 16M 
37M FeR U 37M 
‘| Max Pool 3x3s2 人 
442K | Conv 3x3s1 256/ReLU || 74M 
1.3M || Conv 3x3s1, 384/ReLU || 112M 
884K || Conv 3x3s1, 384/ReLU | 149M 
Max Pool 3x3s2 


| Local Response Norm 
307K | Conv 5x5s1, 256/ReLU | 223M 
Max Pool 3x3s2 


Local Response Norm 


35K Conv 11x11s4,96/ReLU | 105M 
图 6-5 ”AlexNet 每 层 的 超 参数 及 参数 数量 


因为 使 用 ImageNet 数 据 集训 练 一 个 完整 的 AlexNet 耗 时 非常 长 ， 因 此 
本 节 中 AlexNet 的 实现 将 不 涉及 实际 数据 的 训练 。 我 们 会 建立 一 个 完整 的 
AlexNet 卷 积 神经 网 络 ， 然 后 对 它 每 个 batch 的 前 馈 计算 (forward) 和 反馈 
计算 (backward) 的 速度 进行 测试 。 这 里 使 用 随机 图 片 数据 来 计算 每 轮 
前 馈 、 反 馈 的 平均 耗 时 。 有 兴趣 的 读者 ， 可 以 自行 下 载 ImageNet 数 据 并 
使 用 本 书 构建 的 AlexNet 完 成 训练 ， 并 在 测试 集 上 进行 测试 。 


首先 导入 几 个 接 下 来 会 用 到 的 几 个 系统 库 ， 包 括 datetime、math 和 
time， 并 载 入 TensorFlow。 本 节 代 码 主要 来 自 TensorFlow 的 开源 实现 51 。 


from datetime import datetime 
import math 
import time 


import tensorflow as tf 


这 里 设置 batch_size 为 32，num_batches 为 100， 即 总 共 测 试 100 个 batch 
的 数据 。 


batch size=32 
num_batches=166 


定义 一 个 用 来 显示 网 络 每 一 层 结构 的 函数 print_actications， 展 示 每 一 
个 卷 积 层 或 池 化 层 输出 tensor 的 尺寸 。 这 个 函数 接受 一 个 tensor 作 为 输 
入 ， 并 显示 其 名 称 (top.name) 和 和 tensor 尺 寸 (t.get_shape.as_list()) o 


def print_activations(t): 


print(t.op.name, ' ', t.get_shape().as_list()) 
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images 作 为 输入 ， 返 回 最 后 一 层 pool5 (第 5 个 池 化 层 ) parameters 
(AlexNet 中 所 有 需要 训练 的 模型 参数 ) 。 这 个 inference 函 数 将 会 很 大 ， 
包括 多 个 卷 积 和 闻 化 层 ， 因 此 下 面 将 拆 为 几 个 小 段 分 别 讲解 。 
首先 是 第 一 个 卷 积 层 conv1， 这 里 使 用 TensorFlow 中 的 name_scope， 
通过 with tf.name_scope(‘conv1') as scope 可 以 将 scope 内 生成 的 Variable 自 动 
命名 为 conv1/xxx， 便 于 区 分 不 同 卷 积 层 之 间 的 组 件 。 然 后 定义 第 一 个 卷 
积 层 ， 和 之 前 一 样 使 用 tf.truncated_normal 截 断 的 正 态 分 布 浆 数 (标准 差 


为 0.1) 初始 化 卷 积 核 的 参数 kernel。 卷 积 核 尺寸 为 11x11， 颜 色 通 道 为 3， 

卷 积 核 数量 为 64。 准 备 好 了 kernel， 再 使 用 tf.nn.conv2d 对 输入 images 完 成 
卷 积 操作 ， 我 们 将 strides 步 长 设置 为 4x4 ( 即 在 图 片上 每 4x4 区 域 只 取样 一 
次 ， 横 向 间隔 是 4， 纵 向 间隔 也 为 4， 每 次 取样 的 卷 积 核 大 小 都 为 
11x11) ，Ppadding 模 式 设 为 SAME。 将 卷 积 层 的 biases 全 部 初始 化 为 0， 再 
使 用 tf.nn.bias_add 将 conv 和 biases 加 起 来 ， 并 使 用 激活 玫 数 tt.nn.relu 对 结果 
进行 非 线 性 处 理 。 最 后 使 用 print_activations 将 这 一 层 最 后 输出 的 tensor 
conv1 的 结构 打印 出 来 ， 并 将 这 一 层 可 训练 的 参数 kernel、biases 添 加 到 


parameters 中 。 


def inference(images): 


parameters = [] 


with tf.name_scope('convi1') as scope: 
kernel = tf.Variable(tf.truncated_normal([11, 11, 3, 64], 
dtype=tf.float32, stddev=1e-1), name='weights' ) 
conv = tf.nn.conv2d(images, kernel, [1, 4, 4, 1], padding= ‘SAME") 
biases = tf.Variable(tf.constant(@.0, shape=[64], dtype=tf.float32), 
trainable=True, name='biases' ) 
bias = tf.nn.bias_add(conv, biases) 
conv1 = tf.nn.relu(bias, name=scope) 
print_activations(conv1) 


parameters += [kernel, biases] 


在 第 1 个 卷 积 层 后 再 添加 LRN 层 和 最 大 池 化 层 。 先 使 用 tt.nn.lm 对 前 面 
输出 的 tensor conv1 进 行 LRN 处 理 ， 这 里 使 用 的 depth_radius 设 为 4，bias 设 
为 1，alpha 为 0.001/9，beta 为 0.75， 基 本 都 是 AlexNet 的 论文 中 的 推荐 值 。 
不 过 目前 除了 AlexNet， 其 他 经 典 的 卷 积 神经 网 络 模型 基本 都 放弃 了 LRN 

(主要 是 效果 不 明显 ) ， 而 我 们 使 用 LRN 也 会 让 前 馈 、 反 馈 的 速度 大 大 
F (整体 速度 降 到 1/3) ， 读 者 可 以 自主 选择 是 否 使 用 LRN。 下 面 使 用 
tf.nn.max_pool 对 前 面 的 输出 lrn1 进 行 最 大 闻 化 处 理 ， 这 里 的 闻 化 尺寸 为 
3x3， 即 将 3x3 大 小 的 像素 块 降 为 1x1 的 像素 ， 取 样 的 步 长 为 2x2，padding 
模式 设 为 VALID ， 即 取样 时 不 能 超过 边框 ， 不 像 SAME 模 式 那 样 可 以 填充 
边界 外 的 点 。 最 后 将 输出 结果 pool1 的 结构 打印 出 来 。 


Irni = tf.nn.Irn(convi, 4, bias=1.@, alpha=@.001/9, beta=@.75, name='I1rn1' ) 
pool1 = tf.nn.max_pool(1rni1, ksize=[1, 3, 3, 1], strides=[1, 2, 2, 1], 
padding='VALID', name='pool1' ) 


print_activations(pool1) 


接 下 来 设计 第 2 个 卷 积 层 ， 大 部 分 步骤 和 第 1 个 卷 积 层 相同 ， 只 有 几 
个 参数 不 同 。 主 要 区 别 在 于 我 们 的 卷 积 核 尺寸 是 5x5， 输 入 通道 数 ( 即 上 
一 层 输 出 通道 数 ， 也 就 是 上 一 层 卷 积 核 数 量 ) 为 64， 卷 积 核 数 量 为 192。 
同时 ， 卷 积 的 步 长 也 全 部 设 为 1， 即 扫描 全 图 像素 。 


with tf.name_scope('conv2') as scope: 

kernel = tf.Variable(tf.truncated_ normal([5, 5, 64, 192], 
dtype=tf.float32, stddev=1e-1), name='weights' ) 

conv = tf.nn.conv2d(pool1, kernel, [1, 1, 1, 1], padding='SAME' ) 

biases = tf.Variable(tf.constant(@.@, shape=[192], 
dtype=tf.float32), trainable=True, name='biases' ) 

bias = tf.nn.bias_add(conv, biases) 

conv2 = tf.nn.relu(bias, name=scope) 

parameters += [kernel, biases] 


print_activations(conv2) 


接 下 来 对 第 2 个 卷 积 层 的 输出 conv2 进 行 处 理 ， 同 样 是 先 做 LRN 处 
理 ， 再 进行 最 大 闻 化 处 理 ， 参 数 和 之 前 完全 一 样 ， 这 里 就 不 再 袭 述 了 。 


lrn2 = tf.nn.lrn(conv2, 4, bias=1.0, alpha=@.001/9, beta=@.75, name='I1rn2') 
pool2 = tf.nn.max_pool(1rn2, ksize=[1, 3, 3, 1], strides=[1, 2, 2, 1], 
padding='VALID', name='pool2' ) 


print_activations(pool2) 


下 面 创建 第 3 个 卷 积 层 ， 基 本 结构 和 前 面 两 个 类 似 ， 也 只 是 参数 不 
同 。 这 一 层 的 卷 积 核 尺 寸 为 3x3， 输 入 的 通道 数 为 192， 卷 积 核 数 量 继续 
扩大 为 384， 同 时 卷 积 的 步 长 全 部 为 1， 其 他 地 方 和 前 面 保持 一 致 。 


with tf.name_scope('conv3') as scope: 

kernel = tf.Variable(tf.truncated_normal([3, 3, 192, 384], 
dtype=tf.float32, stddev=1e-1), name='weights' ) 

conv = tf.nn.conv2d(pool2, kernel, [1, 1, 1, 1], padding='SAME' ) 

biases = tf.Variable(tf.constant(@.@, shape=[384], 
dtype=tf.float32), trainable=True, name='biases' ) 

bias = tf.nn.bias_add(conv, biases) 

conv3 = tf.nn.relu(bias, name=scope) 


parameters += [kernel, biases] 


print_activations(conv3) 


第 4 个 卷 积 层 和 之 前 也 类 似 ， 这 一 层 的 卷 积 核 尺 寸 为 3x3， 输 入 通道 
数 为 384， 但 是 卷 积 核 数 量 B 


with tf.name_scope('conv4') as scope: 

kernel = tf.Variable(tf.truncated_normal([3, 3, 384, 256], 
dtype=tf.float32, stddev=1e-1), name='weights') 

conv = tf.nn.conv2d(conv3, kernel, [1, 1, 1, 1], padding='SAME' ) 

biases = tf.Variable(tf.constant(@.@, shape=[256], 
dtype=tf.float32), trainable=True, name='biases' ) 

bias = tf.nn.bias_add(conv, biases) 

conv4 = tf.nn.relu(bias, name=scope) 

parameters += [kernel, biases] 


print_activations(conv4) 


最 后 的 第 5 个 卷 积 层 同 样 是 3x3 大 小 的 卷 积 核 ， 输 入 通道 数 为 256， 卷 
积 核 数量 也 为 256。 


with tf.name_scope('conv5') as scope: 

kernel = tf.Variable(tf.truncated normal([3, 3, 256, 256], 
dtype=tf.float32, stddev=1le-1), name='weights' ) 

conv = tf.nn.conv2d(conv4, kernel, [1, 1, 1, 1], padding='SAME') 

biases = tf.Variable(tf.constant(@.@, shape=[256], 
dtype=tf.float32), trainable=True, name='biases' ) 

bias = tf.nn.bias_add(conv, biases) 

conv5 = tf.nn.relu(bias, name=scope) 

parameters += [kernel, biases] 


print_activations(conv5) 


在 第 5 个 卷 积 层 之 后 ， 还 有 一 个 最 大 池 化 层 ， 这 个 池 化 层 和 前 两 个 卷 
积 层 后 的 池 化 层 一 致 ， 最 后 我 们 返回 这 个 池 化 层 的 输出 pool5。 至 此 ， 
inference 国 数 就 完成 了 ， 它 可 以 创建 AlexNet 的 卷 积 部 分 。 在 正式 使 用 
AlexNet 来 训练 或 预测 时 ， 还 需要 添加 3 个 全 连接 层 ， 隐 含 节点 数 分 别 为 
4096、4096 和 1000。 由 于 最 后 3 个 全 连接 层 的 计算 量 很 小 ， 就 没 放 到 计算 
速度 评测 中 ， 他 们 对 计算 耗 时 的 影响 非常 小 。 读 者 在 正式 使 用 AlexNet 时 
需要 自行 添加 这 3 个 全 连接 层 ， 全 连接 层 在 TensorFlow 中 的 实现 方法 在 第 4 
BOS, KER BRR. 


pools = tf.nn.max_pool(conv5, ksize=[1, 3, 3, 1], strides=[1, 2, 2, 1], 
padding='VALID', name='pool5') 


print_activations(pool15) 


return pool5, parameters 


接 下 来 实现 一 个 评估 AlexNet 每 轮 计 算 时 间 的 函数 
time_tensorflow_run。 这 个 函数 的 第 一 个 输入 是 TensorFlow 的 Session ， 第 
二 个 变量 是 需要 评测 的 运算 算 子 ， 第 三 个 变量 是 测试 的 名 称 。 先 定义 预 
热 轮 数 num_steps_burm_in=10， 它 的 作用 是 给 程序 热身 ， 头 几 轮 迭代 有 显 
存 加 载 、cache 命 中 等 问题 因此 可 以 跳 过 ， 我 们 只 考量 10 轮 迭代 之 后 的 计 
算 时 间 。 同 时 ， 也 记录 总 时 间 total_duration 和 平方 和 total_duration_squared 
用 以 计算 方差 。 


def time_tensorflow_run(session, target, info_string): 
num_steps_burn_in = 10 
total duration = 0.0 


total _duration_squared = 0.9 


我 们 进行 num_batchestnum_steps_burn in 次 迭代 计算 ， 使 用 
time.time() 记 录 时 间 ， 每 次 迭代 通过 session.run(target) 执 行 。 在 初始 热身 的 
num_steps_burn_in 次 迭代 后 ， 每 10 轮 迭代 显示 当前 迭代 所 需要 的 时 间 。 
同时 每 轮 将 total_duration 和 total_duration_squared 累 加 ， 以 便 后 面 计算 每 轮 
耗 时 的 均值 和 标准 差 。 


for i in range(num_batches + num_steps_burn_in): 
start_time = time.time() 
_ = session.run(target) 
duration = time.time() - start_time 
if i >= num_steps_burn_in: 
if not i % 10: 
print('%s: step %d, duration = %.3f' % 
(datetime.now(), i - num_steps_burn_in, duration) ) 
total_duration += duration 


total_duration_squared += duration * duration 


在 循环 结束 后 ， 计 算 每 轮 迭 代 的 平均 耗 时 mn 和 标准 差 sd， 最 后 将 结 
果 显 示 出 来 。 这 样 就 完成 了 计算 每 轮 迭 代 耗 时 的 评测 阔 数 


time_tensorflow_runo 


mn = total duration / num _ batches 

vr = total duration squared / num batches - mn * mn 

sd = math.sqrt(vr) 

print('%s: %s across %d steps, %.3f +/- %.3f sec / batch' % 


(datetime.now(), info_string, num_batches, mn, sd)) 


接 下 来 是 主 函 数 run_benchmark。 首 先 使 用 with tf.Graph().as_default() 
定义 默认 的 Graph 方便 后 面 使 用 。 如 前 面 所 说 ， 我 们 并 不 使 用 ImageNet 数 
据 集 来 训练 ， 只 使 用 随机 图 片 数 据 测 试 前 馈 和 反馈 计算 的 耗 时 。 我 们 使 


用 ttrandom_normal 了 图 数 构造 正 态 分 布 (标准 差 为 0.1) 的 随机 tensor， 第 
一 个 维度 是 batch_size， 即 每 轮 迭 代 的 样本 数 ， 第 二 个 和 第 三 个 维度 是 图 
片 的 尺寸 image_size=224， 第 四 个 维度 是 图 片 的 颜色 通道 数 。 接 下 来 ， 使 
用 前 面 定义 的 inference 国 数 构建 整个 AlexNet 网 络 ， 得 到 最 后 一 个 池 化 层 
的 输出 pool15 和 网 络 中 需要 训练 的 参数 的 集合 parameters。 接 下 来 ， 我 们 使 
用 tft.Session0 创 建新 的 Session 并 通过 tf.global_variables_initializer0 初 始 化 
所 有 参数 。 


def run_benchmark(): 
with tf.Graph().as_default(): 

image_size = 224 

images = tf.Variable(tf.random_normal([batch_size, 
image size, 
image size, 3], 
dtype=tf.float32, 
stddev=1e-1) ) 


pool5, parameters = inference(images) 


init = tf.global_ variables initializer() 
sess = tf.Session() 


sess.run(init) 


下 面 进 行 AlexNet 的 forward 计算 的 评测 ， 这 里 直接 使 用 
time_tensorflow_run 统 计 运 算 时 间 ， 传 入 的 target 就 是 pool15 ， 即 卷 积 网 络 
最 后 一 个 池 化 层 的 输出 。 然 后 进行 backward 即 训练 过 程 的 评测 ， 这 里 和 
forward 计 算 有 些 不 同 ， 我 们 需要 给 最 后 的 输出 pool5 设 置 一 个 优化 目标 
loss。 我 们 使 用 tf.nn.12_loss 计 算 pool5 的 loss ， 再 使 用 tf.gradients 求 相对 于 
loss 的 所 有 模型 参数 的 梯度 ， 这 样 就 模拟 了 一 个 训练 的 过 程 。 当 然 ， 训 练 
时 还 有 一 个 根据 梯度 更 新 参数 的 过 程 ， 不 过 这 个 计算 量 很 小 ， 就 不 统计 
在 评测 程序 里 了 。 最 后 我 们 使 用 time_tensorflow_run 统 计 backward 的 运算 
时 间 ， 这 里 的 target 就 是 求 整个 网 络 梯 度 gard 的 操作 。 


time_tensorflow_run(sess, pool5, "Forward") 


objective = tf.nn.12_loss(pool5) 
grad = tf.gradients(objective, parameters) 


time_tensorflow_run(sess, grad, "Forward-backward" ) 


Be STATE AEX. 
run_benchmark() 


程序 显示 的 结果 有 三 段 ， 首 先是 AlexNet 的 网 络 结构 ， 可 以 看 到 我 们 
定义 的 5 个 卷 积 层 中 第 1 个 、 第 2 个 和 第 5 个 卷 积 层 后 面 还 连接 着 池 化 层 ， 
另外 每 一 层 输出 tensor 的 尺寸 也 显示 出 来 了 。 


conv1 [32, 56, 56, 64] 
pool1 [32, 27, 27, 64] 
conv2 [32, 27, 27, 192] 
pool2 [32, 13, 13, 192] 
conv3 [32, 13, 13, 384] 
conv4 [32, 13, 13, 256] 
conv5 [32, 13, 13, 256] 
pool5 [32, 6, 6, 256] 


然后 显示 的 是 forward 计 算 的 时 间 。 我 们 使 用 的 GPU 是 GTX 1080, $ 
件 环 境 包 括 CUDA 8.0 和 cuDNN 5.1。 在 有 LRN 层 时 每 轮 和 迭代 时 间 大 约 为 
0.026s;， 去 除 LRN 层 时 每 轮 迭 代 时 间 大 约 为 0.007s， 运 算 时 间 有 了 大 幅 缩 
减 ， 大 约 快 了 3 们 多。 因为 LRN 层 对 最 终 准 确 率 的 影响 不 是 很 大 ， 所 以 读 
者 可 以 自行 考虑 是 否 使 用 LRN。 


2016-12-10 21:08:31.851750: step ©, duration = 0.026 
2016-12-10 21:08:32.109889: step 10, duration = 0.026 


2016-12-10 21:08:32.367558: step 20, duration = 0.026 
2016-12-10 21:08:32.625277: step 30, duration = 0.026 
2016-12-10 21:08:32.884085: step 40, duration = 0.026 
2016-12-10 21:08:33.141951: step 50, duration = 0.026 
2016-12-10 21:08:33.400239: step 60, duration = 0.026 
2016-12-10 21:08:33.658713: step 70, duration = 0.026 
2016-12-10 21:08:33.916780: step 80, duration = 0.026 


2016-12-10 21:08:34.174840: step 90, duration = 0.026 
2016-12-10 21:08:34.407022: Forward across 100 steps, 9.026 +/- 0.000 sec / 
batch 


然后 是 显示 的 backward 运 算 的 时 间 。 在 使 用 LRN 层 时 ， 每 轮 的 迭代 
时 间 为 0.078s; 在 去 除 LRN 层 后 ， 每 轮 迭 代 时 间 约 为 0.025s， 速 度 也 快 了 3 
音 多 。 另 外 可 以 发 现 不 论 是 否 有 LRN 层 ， 我 们 backward 运 算 的 耗 时 大 约 
是 forward 耗 时 的 三 倍 。 


2016-12-10 21:68:35.447963: step ©, duration = 0.078 
2016-12-10 21:08:36.225855: step 10, duration = 0.078 


.977 


2016-12-10 21:08:37.002277: step 20, duration 
2016-12-10 21:08:37.777730: step 30, duration = 0.078 
2016-12-10 21:08:39.333113: step 50, duration = 0.077 
2016-12-10 21:08:40.110716: step 60, duration = 0.078 


2016-12-10 21:08:40.887492: step 70, duration = 


9 

6 

9 
2016-12-10 21:08:38.555231: step 40, duration = 0.078 

6 

6 

0.078 

6 


2016-12-10 21:08:41.664907: step 80, duration = 0.078 
2016-12-10 21:08:42.441733: step 90, duration = 0.078 
2016-12-10 21:08:43.139532: Forward-backward across 100 steps, 0.078 +/- 0.0 


66 sec / batch 


CNN 的 训练 过 程 〈《 即 backward 计 算 ) 通常 都 比较 耗 时 ， 而 且 不 像 预 
测 过 程 〈 即 forward 计 算 ) ， 训 练 通常 需要 过 很 多 遍 数 据 ， 进 行 大 量 的 迭 
代 。 因 此 应 用 CNN 的 主要 瓶颈 还 是 在 训练 ， 用 CNN 做 预测 问题 不 大 。 目 
前 TensorFlow 已 经 支持 在 iOS、Android 系 统 中 运行 ， 所 以 在 手机 上 使 用 
CPU 进行 人 脸 识 别 或 图 片 分 类 已 经 非常 方便 了 ， 并 且 响 应 速度 也 很 快 。 


至 此 ，AlexNet 的 TensorFlow 实 现 和 运算 时 间 评 测 就 完成 了 。AlexNet 
为 卷 积 神经 网 络 和 深度 学 习 正 名 ， 以 绝对 优势 拿 下 ILSVRC 20127082, 5| 
起 了 学 术 界 的 极 大 关注 ， 为 复兴 神经 网 络 做 出 了 很 大 贡献 。 AlexNet 在 
ILSVRC 数 据 集 上 可 达到 16.4% 的 错误 率 (读者 可 自行 下 载 数 据 集 测试 ， 
但 注意 batch_size 可 能 要 设 为 1 才能 复 现 论文 中 的 结果 ) ， 其 中 用 到 的 许多 
网 络 结构 和 Trick 给 深度 学 习 的 发 展 带 来 了 深刻 的 影响 。 当 然 ， 我 们 也 不 
能 忽视 ImageNet 数 据 集 给 深度 学 习 带 来 的 贡献 。 训 练 深度 卷 积 神经 网 
络 ， 必 须 拥 有 一 个 像 ImageNet 这 样 超大 的 数据 集 才 能 避免 过 拟 合 ， 发 挥 
深度 学 习 的 优势 。 可 以 说 ， 传 统 机 器 学 习 模 型 适合 学 习 一 个 小 型 数据 
集 ， 但 是 对 于 大 型 数据 集 ， 我 们 需要 有 更 大 学 习 容 量 (Leaming 
Capacity) 的 模型 ， 即 深度 学 习 模 型 。 

在 AlexNet 发 表 在 NIPS 时 ，Hinton 曾 说 “如 果 你 没有 参加 过 之 前 十 几 年 
的 NIPS， 那 没关系 ， 因 为 直到 今年 神经 网 络 才 真正 开始 生效 。” 当 时 有 很 
多 与 会 的 教授 表示 不 能 接受 神经 网 络 ， 他 们 认为 深度 学 习 是 一 个 黑箱 模 
型 ， 不 可 解释 ， 有 超过 6000 万 的 参数 ， 在 ILSVRC 上 的 成 绩 可 能 只 是 某 种 
过 拟 合 ， 对 计算 机 视觉 贡献 不 大 。 然 而 之 前 使 用 传统 方法 获得 过 ILSVRC 
比赛 冠军 的 NEC Labs 的 模型 参数 量 也 不 少 。 他 们 当时 使 用 sparse SIFT 加 
Pyramid Pooling 提 取 特 征 ， 然 后 使 用 SVM 进行 分 类 ， 但 是 他 们 的 SVM 模 
型 参数 也 有 超过 1 亿 6000 万 ， 远 比 AlexNet 的 参数 多 。 因 此 说 CNN 参 数 多 
所 以 没有 价值 的 观点 是 站 不 住 脚 的。 深度 学 习 的 参数 并 不 一 定 比 传统 机 
器 学 习 模型 多 ， 尤 其 卷 积 层 使 用 的 参数 量 其 实 很 少 ， 但 是 其 抽取 特征 的 
能 力 是 非常 强 的 ， 这 也 是 CNN 之 所 以 有 效 的 原因 。 


6.2 ”TensorFlow 实 现 VGGNet 


VGGNet 是 牛津 大 学 计算 机 视觉 组 (Visual Geometry Group) 和 
Google DeepMind 公 司 的 研究 员 一 起 研发 的 的 深度 卷 积 神经 网 络 。 
VGGNet 探 索 了 卷 积 神经 网 络 的 深度 与 其 性 能 之 间 的 关系 ， 通 过 反复 堆 靶 
3x3 的 小 型 卷 积 核 和 2x2 的 最 大 池 化 层 ，VGGNet 成 功 地 构筑 了 16~19 层 深 
的 卷 积 神经 网 络 。VGGNet 相 比 之 前 state-of-the-art 的 网 络 结构 ， 错 误 率 大 
幅 下 降 ， 并 取得 了 ILSVRC 2014 比 赛 分 类 项 目的 第 2 名 和 定位 项 目的 第 1 
名 。 同 时 VGGNet 的 拓展 性 很 强 ， 迁 移 到 其 他 图 片 数 据 上 的 泛 化 性 非常 
好 。VGGNet 的 结构 非常 简洁 ， 整 个 网 络 都 使 用 了 同样 大 小 的 卷 积 核 尺 十 

(3x3) 和 最 大 池 化 尺寸 (2x2) 。 到 目前 为 止 ，VGGNet 依 然 经 常 被 用 来 


提取 图 像 特征 。VGGNet 训 练 后 的 模型 参数 在 其 官方 网 站 上 开源 了 ， 可 用 
来 在 domain specific 的 图 像 分 类 任务 上 进行 再 训练 (相当 于 提供 了 非常 好 
的 初始 化 权重 ) ， 因 此 被 用 在 了 很 多 地 方 。 


VGGNet 论 文中 全 部 使 用 了 3x3 的 卷 积 核 和 2x2 的 池 化 核 ， 通 过 不 断 加 
深 网 络 结构 来 提升 性 能 。 图 6-6 所 示 为 VGGNet 各 级 别 的 网 络 结构 图 ， 图 6- 
7 所 示 为 每 一 级 别 的 参数 量 ， 从 11 层 的 网 络 一 直到 19 层 的 网 络 都 有 详尽 的 
性 能 测试 。 虽 然 从 A 到 E 每 一 级 网 络 逐 渐变 深 ， 但 是 网 络 的 参数 量 并 没 
增长 很 多 ， 这 是 因为 参数 量 主 要 都 消耗 在 最 后 3 个 全 连接 层 。 前 面 的 卷 积 
部 分 虽然 很 深 ， 但 是 消耗 的 参数 量 不 大 ， 不 过 训练 比较 耗 时 的 部 分 依然 
是 卷 积 ， 因 其 计算 量 比较 大 。 这 其 中 的 D、E 也 就 是 我 们 常 说 的 VGGNet- 
16 和 VGGNet-19。C 很 有 意思 ， een ee eat ha !\ 层 ，1x1 卷 积 的 
意义 主要 在 于 线性 变换 ， 而 输入 通道 数 和 输出 通道 数 不 变 ， 没 有 发 生 降 
维 。 


ConvNet See 
| A-LRN | 


11 一 一 一 11 一 一 -一 13 一 一 -一 16 一 一 一 16 一 一 一 19 一 一 -一 
layers layers layers layers layers layers 


input (224 x 224 RGB image) 


conv3-64 conv3-64 conv3-64 conv3-64 conv3-64 
conv3-64 conv3-64 conv3-64 conv3-64 


maxpool 


conv3-128 | conv3-128 | conv3-128 | conv3-128 | conv3-128 | conv3-128 
conv3-128 | conv3-128 | conv3-128 | conv3-128 


maxpool 


conv3-256 | conv3-256 | conv3-256 | conv3-256 | conv3-256 | conv3-256 
conv3-256 | conv3-256 | conv3-256 | conv3-256 | conv3-256 | conv3-256 
conv1-256 | conv3-256 | conv3-256 

conv3-256 


D 
conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 
conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 
conv1-512 | conv3-512 | conv3-512 
conv3-512 


maxpool 


conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 
conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 
conv1-512 | conv3-512 | conv3-512 

conv3-512 


maxpool 
FC-4096 
FC-4096 
FC-1000 


图 6-6 VGGNet 各 级 别 网 络 结构 图 


KA-IRN 


| A,A-LRN | B | C |] Di] E | 
图 6-7 VGGNet 各 级 别 网 络 参 数量 (单位 为 百 万 ) 


VGGNet 拥 有 5 段 卷 积 ， 每 一 段 内 有 2~3 个 卷 积 层 ， 同 时 每 段 尾 部 会 连 
接 一 个 最 大 池 化 层 用 来 缩小 图 片 尺 寸 。 每 段 内 的 卷 积 核 数 量 一 样 ， 越 靠 
后 的 段 的 卷 积 核 数 量 越 多 : 64 -128 - 256 -~ 512 -~ 512。 其 中 经 常 出 现 多 个 
完全 一 样 的 3x3 的 卷 积 层 堆 翅 在 一 起 的 情况 ， 这 其 实 是 非常 有 用 的 设计 。 
如 图 6-8 所 示 ， 两 个 3x3 的 卷 积 层 串联 相 当 于 1 个 5x5 的 卷 积 层 ， 即 一 个 像 
素 会 跟 周围 5x5 的 像素 产生 关联 ， 可 以 说 感受 野 大 小 为 5x5。 而 3 个 3x3 的 
卷 积 层 串联 的 效果 则 相当 于 1 个 7x7 的 卷 积 层 。 除 此 之 外 ，3 个 串联 的 3x3 
的 卷 积 层 ， 拥 有 上 比 1 个 7x7 的 卷 积 层 更 少 的 参数 量 ， 只 有 后 者 的 
222 = 55%。 最 重要 的 是 ，3 个 3x3 的 卷 积 层 拥 有 比 1 个 7x7 的 卷 积 层 更 多 的 
非 线 性 变换 (前 者 可 以 使 用 三 次 ReLU 激 活 函 数 ， 而 后 者 只 有 一 次 ) ， 使 
得 CNN 对 特征 的 学 习 能 力 更 强 。 


图 6-8 ”两 个 串联 3x3 的 卷 积 层 功 能 类 似 于 一 个 5x5 的 卷 积 层 


VGGNet 在 训练 时 有 一 个 小 技巧 ， 先 训练 级 别 A 的 简单 网 络 ， 再 复 用 
A 网 络 的 权重 来 初始 化 后 面 的 几 个 复杂 模型 ， 这 样 训练 收敛 的 速度 更 快 。 
在 预测 时 ，VGG 采 用 Multi-Scale 的 方法 ， 将 图 像 scale 到 一 个 尺寸 Q， 并 将 
图 片 输入 卷 积 网 络 计算 。 然 后 在 最 后 一 个 卷 积 层 使 用 滑 窗 的 方式 进行 分 
类 预测 ， 将 不 同窗 口 的 分 类 结果 平均 ， 再 将 不 同 尺 寸 Q 的 结果 平均 得 到 最 
后 结果 ， 这 样 可 提高 图 片 数 据 的 利用 率 并 提升 预测 准确 率 。 同 时 在 训练 
中 ，VGGNet 还 使 用 了 Multi-Scale 的 方法 做 数据 增强 ， 将 原始 图 像 缩 放 到 
不 同 尺 寸 $， 然 后 再 随机 裁 切 224x224 的 图 片 ， 这 样 能 增加 很 多 数据 量 ， 
对 于 防止 模型 过 拟 合 有 很 不 错 的 效果 。 实 践 中 ， 作 者 令 S 在 [256,512] 这 个 


区 间 内 取 值 ， 使 用 Multi-Scale 获 得 多 个 版 本 的 数据 ， 并 将 多 个 版 本 的 数据 
合 在 一 起 进行 训练 。 图 6-9 所 示 为 VGGNet 使 用 Multi-Scale 训 练 时 得 到 的 结 
果 ， 可 以 看 到 D 和 E 都 可 以 达到 7.5% 的 错误 率 。 最 终 提交 到 ILSVRC 2014 
的 版 本 是 仅 使 用 Single-Scale 的 6 个 不 同等 级 的 网 络 与 Multi-Scale 的 D 网 络 
的 融合 ， 达 到 了 7.3% 的 错误 率 。 不 过 比赛 结束 后 作者 发 现 只 融合 Multi- 
Scale 的 D 和 E 可 以 达到 更 好 的 效果 ， 错 误 率 达到 7.0%6， 再 使 用 其 他 优化 策 
略 最 终 错 误 率 可 达到 6.8% 左 右 ， 非 常 接近 同年 的 冠军 Google Inceptin 
Net。 同 时 ， 作 者 在 对 比 各 级 网 络 时 总 结 出 了 以 下 几 个 观点 。 


(1) LRN 层 作用 不 大 。 
(2) 越 深 的 网 络 效 果 越 好 。 


(3) 1x1 的 卷 积 也 是 很 有 效 的 ， 但 是 没有 3x3 的 卷 积 好 ， 大 一 些 的 卷 
只 核 可 以 学 习 更 大 的 空间 特征 。 


ConvNet config. (Table 1) smallest i Oy a top-1 val. error (%) | top-5 val. error (%) 
| train(S) | 


7 BE 288 | B2 | 


256 224,256,288 -一 一 一 一 7 9. -一 一 一 
C 384 | Kat 416 e 8 一 一 一 一 2 


| (256; 512) | 


C pa ee 
=e | 
256,512 | 
E EL 350,34 a1 EE oo e 
1256; 517] [256,384,512 | 248 | 7m5 | 
图 6-9 Ze ee 5 错误 率 


VGGNet 训 练 时 使 用 了 4 块 Geforce GTX Titan GPU 并 行 计 算 ， 速 度 比 
单 块 GPU 快 3.75 倍 ， 几 乎 没有 太 多 性 能 损耗 。 但 是 ， 每 个 网 络 耗 时 2~3 周 
才 可 以 训练 完 。 因 此 我 们 这 里 不 直接 使 用 ImageNet 数 据 训 练 一 个 
VGGNet， 而 是 采用 跟 AlexNet 一 样 的 方式 : 构造 出 YGGNet 网 络 结构 ， 并 
评测 其 forward (inference) 耗 时 和 backward (training) 耗 时 。 


下 面 就 开始 实现 VGGNet-16， 也 就 是 上 面 的 版 本 ， 其 他 版 本 读者 可 
以 仿照 本 节 的 代码 自行 修改 并 实现 ， 难 度 不 大 。 首 先 ， 我 们 载 入 几 个 系 
统 库 和 TensorFlow。 本 世代 码 主要 来 自 tensorflow-vgg 的 开源 实现 ? 。 


from datetime import datetime 
import math 
import time 


import tensorflow as tf 


VGGNet-16 包 含 很 多 层 的 卷 积 ， 因 此 我 们 先 写 一 个 函数 conv_op， 用 
来 创建 卷 积 层 并 把 本 层 的 参数 存 入 参数 列表 。 先 来 看 conv_op 遂 数 的 输 
入 ，input_op 是 输入 的 tensor，name 是 这 一 层 的 名 称 ，kh 是 kernel height 即 
卷 积 核 的 高 ，kw 是 kernel width 即 卷 积 核 的 宽 ，n_out 是 卷 积 核 数 量 即 输出 
通道 数 ，dh 是 步 长 的 高 ，dw 是 步 长 的 宽 ，p 是 参数 列表 。 下 面 使 用 
get_shapeO[-1].value 获 取 输 入 input_op 的 通道 数 ， 比 如 输入 图 片 的 尺寸 
224x224x3 中 最 后 的 那个 3。 然 后 使 用 tf.name_scope(name) 设 置 scope。 我 
们 的 kemel 〈 即 卷 积 核 参数 ) 使 用 tf.get_variable 创 建 ， 其 中 shape 就 是 
[kh,kw,n_in,n_out] 即 [ 卷 积 核 的 高 ， 卷 积 核 的 宽 ， 输 入 通道 数 ， 输 出 通道 
数 ]， 同 时 使 用 tf.contrib.layers.xavier_initializer_conv2d() 做 参数 初始 化 。 
Xavier 初 始 化 方法 我 们 在 第 4 章 实现 过 ， 其 原理 也 讲解 过 ， 在 此 不 做 欧 


述 。 


def conv_op(input_op, name, kh, kw, n_out, dh, dw, p): 


n_in = input_op.get_shape()[-1].value 


with tf.name_scope(name) as scope: 
kernel = tf.get_variable(scope+"w", 
shape=[kh, kw, n_in, n_out], dtype=tf.float32, 


initializer=tf.contrib.layers.xavier_initializer_conv2d()) 


接着 使 用 ttnn.conv2d 对 input_op 进 行 卷 积 处 理 ， 卷 积 核 即 为 kernel， 
步 长 是 dhxdw，padding 模 式 设 为 SAME。biases 使 用 tt.constant 赋 值 为 0， 
再 使 用 tf.Variable 将 其 转 成 可 训练 的 参数 。 我 们 使 用 tf.nn.bias_add 将 卷 积 结 
果 conv 与 biass 相 加 ， 再 使 用 tf.nn.relu 对 其 进行 非 线 性 处 理 得 到 activation。 
最 后 将 创建 卷 积 层 时 用 到 的 参数 kernel 和 biases 添 加 进 参 数列 表 p， 并 将 卷 
积 层 的 输出 activation 作 为 水 数 结果 返回 。 


conv = tf.nn.conv2d(input_op, kernel, (1, dh, dw, 1), 
padding='SAME' ) 

bias init val = tf.constant(@.@, shape=[n_out], dtype=tf.float32) 

biases = tf.Variable(bias_init_val, trainable=True, name='b') 

z = tf.nn.bias_add(conv, biases) 

activation = tf.nn.relu(z, name=scope) 

p += [kernel, biases] 


return activation 


下 面 定义 全 连接 层 的 创建 国 数 fc_op。 一 样 是 先 获 取 输 入 input_op 的 通 
道 数 ， 然 后 使 用 tf.get_variable 创 建 全 连接 层 的 参数 ， 只 不 过 参数 的 维度 只 
有 两 个 ， 第 一 个 维度 为 输入 的 通道 数 n_in， 第 二 个 维度 为 输出 的 通道 数 
n_out。 同 样 ， 参 数 初始 化 方法 也 使 用 xavier_initializer。 这 里 biases 不 再 初 
始 化 为 0， 而 是 赋予 一 个 较 小 的 值 0.1 以 避免 dead neuron。 然 后 使 用 
tf.nn.relu_layer 对 输入 变量 input_op 与 kernel 做 和 矩阵 乘法 并 加 上 biases， 再 做 
ReLU 非 线性 变换 得 到 activation。 最 后 将 这 个 全 连接 层 用 到 参数 kernel、 
biases 添 加 到 参数 列表 p， 并 将 activation 作 为 图 数 结果 返回 。 


def fc_op(input_op, name, n_out, p): 


n_in = input_op.get_shape()[-1].value 


with tf.name_scope(name) as scope: 
kernel = tf.get_variable(scope+"w", 
shape=[n_in, n_out], dtype=tf.float32, 
initializer=tf.contrib.layers.xavier_initializer()) 
biases = tf.Variable(tf.constant(@.1, shape=[n_out], 
dtype= tf.float32), name='b') 
activation = tf.nn.relu_layer(input_op, kernel, biases, name= scope) 
p += [kernel, biases] 


return activation 


再 定义 最 大 池 化 层 的 创建 函数 mpoolop。 这 里 直接 使 用 
tf.nn.max_pool， 输 入 即 为 input op ， 池 化 尺寸 为 khxkw， 步 长 是 dhxdw， 
padding 模 式 设 为 SAME。 


def mpool_op(input_op, name, kh, kw, dh, dw): 
return tf.nn.max_pool(input_op, 
ksize=[1, kh, kw, 1], 
strides=[1, dh, dw, 1], 
padding='SAME', 


name=name ) 


完成 了 卷 积 层 、 全 连接 层 和 最 大 池 化 层 的 创建 国 数 ， 接 下 来 就 开始 
创建 VYGGNet-16 的 网 络 结构 。VGGNet-16 主 要 分 为 6 个 部 分 ， 前 5 段 为 卷 
积 网 络 ， 最 后 一 段 是 全 连接 网 络 。 我 们 定义 创建 VGGNet-16 网 络 结构 的 
国 数 inference _ op， 输入 有 input _op 和 keep_prob， 这 里 的 keep_prob 是 控制 
dropout 比 率 的 一 个 placeholder。 第 一 步 先 初始 化 参数 列表 p。 然 后 创建 第 
一 段 卷 积 网 络 ， 这 一 段 正如 图 6-6 中 的 网 络 结构 ， 由 两 个 卷 积 层 和 一 个 最 
大 闻 化 层 构成 。 我 们 使 用 前 面 写 好 的 水 数 conv_op、mpool_op 来 创建 他 
们 。 这 两 个 卷 积 层 的 卷 积 核 的 大 小 都 是 3x3， 同 时 卷 积 核 数 量 (输出 通道 
数 ) 均 为 64， 步 长 为 1x1， 全 像素 扫描 。 第 一 个 卷 积 层 的 输入 input_op 的 
尺寸 为 224x224x3， 输 出 尺寸 为 224x224x64; 而 第 二 个 卷 积 层 的 输入 输出 
尺寸 均 为 224x224x64。 卷 积 层 后 的 最 大 闻 化 层 则 是 一 个 标准 的 2x2 的 最 大 
闻 化 ， 将 输出 结果 尺寸 变 为 了 112x112x64。 


def inference op(input op, keep prob): 


p= [] 


convi_1 = conv_op(input_op, name="conv1_1", kh=3, kw=3, n_out=64, dh=1, 
dw=1, p=p) 

conv1 2 = conv_op(convi_1, name="convi_2", kh=3, kw=3, n_out=64, dh=1, 
dw=1, p=p) 

pool1 = mpool_op(convi_2, name="pooli", kh=2, kw=2, dw=2, dh=2) 


第 二 段 卷 积 网 络 和 第 一 段 非常 类 似 ， 同 样 是 两 个 卷 积 层 加 一 个 最 大 
池 化 层 ， 两 个 卷 积 层 的 卷 积 核 尺 寸 也 是 3x3， 但 是 输出 通道 数 变 为 128， 
是 以 前 的 两 倍 。 最 大 池 化 层 则 和 前 面 保 持 一 致 ， 因 此 这 一 段 卷 积 网 络 的 
输出 尺寸 变 为 56x56x128。 


conv2 1 = conv_op(pool1, name="conv2_1", kh=3, kw=3, n_out=128, dh=1, 
dw=1, p=p) 

conv2_2 = conv_op(conv2_1, name="conv2_2", kh=3, kw=3, n_out=128, dh=1, 
dw=1, p=p) 

pool2 = mpool_op(conv2_2, name="pool2", kh=2, kw=2, dh=2, dw=2) 


接 下 来 是 第 三 段 卷 积 网 络 ， 这 里 有 3 个 卷 积 层 和 1 个 最 大 池 化 层 
卷 积 层 的 卷 积 核 大 小 依然 是 3x3， a sea 
化 层 保 持 不 变 ， 因 此 这 一 段 卷 积 网 络 的 输出 尺寸 是 28x28x256。 


conv3 1 = conv_op(pool2, name="conv3_1", kh=3, kw=3, n_out=256, dh=1, 
dw=1, p=p) 

conv3_2 = conv_op(conv3_1, name="conv3_2", kh=3, kw=3, n_out=256, dh=1, 
dw=1, p=p) 

conv3_3 = conv_op(conv3_2, name="conv3_3", kh=3, kw=3, n_out=256, dh=1, 
dw=1, p=p) 

pool3 = mpool_op(conv3_3, name="pool3", kh=2, kw=2, dh=2, dw=2) 


第 四 段 卷 积 网 络 也 是 3 个 卷 积 层 加 1 个 最 大 池 化 层 。 读 者 可 能 已 经 发 
现 规律 了 ， 到 目前 为 止 ，VGGNet-16 的 每 一 段 卷 积 网 络 都 会 将 图 像 的 边 
长 缩小 一 半 ， 但 是 将 卷 积 输 出 通道 数 翻 倍 。 这 样 图 像 面 积 缩小 到 1/4， 输 
出 通道 数 变 为 2 倍 ， 因此 输出 tensor 的 总 尺寸 每 次 缩小 一 半 。 这 一 层 就 是 
将 卷 积 输出 通道 数 增加 到 512， 但 是 通过 最 大 池 化 将 图 片 缩小 为 14x14。 


conv4_1 = conv_op(pool3, name="conv4_1", kh=3, kw=3, n_out=512, dh=1, 
dw=1, p=p) 

conv4_2 = conv_op(conv4_1, name="conv4_2", kh=3, kw=3, n_out=512, dh=1, 
dw=1, p=p) 

conv4_3 = conv_op(conv4_2, name="conv4_3", kh=3, kw=3, n_out=512, dh=1, 
dw=1, p=p) 

pool4 = mpool_op(conv4_3, name="pool4", kh=2, kw=2, dh=2, dw=2) 


最 后 一 段 卷 积 网 络 有 所 变化 ， 这 里 卷 积 输出 的 通道 数 不 再 增加 ， 继 
续 维持 在 512。 最 后 一 段 卷 积 网 络 同样 是 3 个 卷 积 层 加 一 个 最 大 池 化 层 ， 


卷 积 核 尺 寸 为 3?x3， 步 长 为 lx1， 池 化 层 尺 寸 为 2x2， 步 长 为 2x2。 因 此 到 
这 里 输出 的 尺寸 变 为 7x7x512。 


conv5_1 = conv_op(pool4, name="conv5_1", kh=3, kw=3, n_out= 512, dh=1, 
dw=1, p=p) 

conv5 2 = conv_op(conv5 1, name="conv5_ 2", kh=3, kw=3, n_out= 512, dh=1, 
dw=1, p=p) 

conv5 3 = conv_op(conv5_2, name="conv5_3", kh=3, kw=3, n_out=512, dh=1, 
dw=1, p=p) 

pool5 = mpool_op(conv5_3, name="pool5", kh=2, kw=2, dw=2, dh=2) 


我 们 将 第 5 段 卷 积 网 络 的 输出 结果 进行 扁平 化 ， 使 用 tt.reshape 国 数 将 
每 个 样本 化 为 长 度 为 7x7x512=25088 的 一 维 向 量 。 


shp = poolS.get_shape() 
flattened shape = shp[1].value * shp[2].value * shp[3].value 
resh1 = tf.reshape(pool5, [-1, flattened_shape], name="resh1") 


然后 连接 一 个 隐 含 节点 数 为 4096 的 全 连接 层 ， 激 活 函 数 为 ReLU。 然 
后 连接 一 个 Dropout 层 ， 在 训练 时 节点 保留 率 为 0.5， 预 测 时 为 1.0。 


fc6 = fc_op(resh1, name="fc6", n_out=4096, p=p) 
fc6_drop = tf.nn.dropout(fc6, keep _prob, name="fc6_ drop") 


接 下 来 是 一 个 和 前 面 一 样 的 全 连接 层 ， 之 后 同样 连接 一 个 Dropout 


fc7 = fc_op(fc6_drop,name="fc7",n_out=4096,p=p) 
fc7_drop = tf.nn.dropout(fc7,keep_prob,name="fc7_drop") 


最 后 连接 一 个 有 1000 个 输出 节点 的 全 连接 层 ， 并 使 用 Softmax 进 行 处 
理 得 到 分 类 输出 概率 。 这 里 使 用 tf.argmax 求 输出 概率 最 大 的 类 别 。 最 后 将 
fc8、softmax、Ppredictions 和 参数 列表 p 一 起 返回 。 到 此 为 止 ，VGGNet-16 
的 网 络 结构 就 全 部 构建 完成 了 。 


fc8 = fc_op(fc7_drop, name="fc8", n_out=1000, p=p) 
softmax = tf.nn.softmax(fc8) 
predictions = tf.argmax(softmax, 1) 


return predictions, softmax, fc8, p 


我 们 的 评测 函数 time_tensorflow_run0 和 前 面 AlexNet 中 的 非常 相似 ， 
只 有 一 点 区 别 : 我 们 在 session.run(0) 方 法 中 引入 了 feed_dict， 方 便 后 面 传 入 
keep_prob 来 控制 Dropout 层 的 保留 比率 。 


def time_tensorflow_run(session, target, feed, info_string): 
num_steps_burn_in = 10 
total_duration = 0.0 
total_duration_squared = 0.0 
for i in range(num_batches + num_steps_burn_in): 
start_time = time.time() 
_ = session.run(target, feed_dict=feed) 
duration = time.time() - start_time 
if i >= num_steps_burn_in: 
if not i % 10: 
print ('%s: step %d, duration = %.3f' % 
(datetime.now(), i - num steps burn in, duration) ) 
total duration += duration 


total duration squared += duration * duration 


mn = total duration / num batches 
vr = total duration squared / num batches - mn * mn 
sd = math.sqrt(vr) 


print ('%s: %s across %d steps, %.3f +/- %.3f sec / batch' % 


(datetime.now(), info _string, num_batches, mn, sd)) 


下 面 定 义 评 测 的 主 国 数 run_benchmark， 我 们 的 目标 依然 是 仅 评 测 
forward 和 backward 的 运算 性 能 ， 并 不 进行 实质 的 训练 和 预测 。 首 先是 生 
成 尺寸 为 224x224 的 随机 图 片 ， 方 法 与 AlexzNet 中 一 样 ， 通 过 
tfrandom_normal 孙 数 生 成 标准 差 为 0.1 的 正 态 分 布 的 随机 数 。 


def run_benchmark(): 
with tf.Graph().as_default(): 

image_size = 224 

images = tf.Variable(tf.random_normal([batch_size, 
image_size, 
image size, 3], 
dtype=tf.float32, 
stddev=1e-1)) 
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VGGNet-16 的 网 络 结构 ， 获 得 predictions、softmax、fc8 和 参数 列表 p。 


keep_prob = tf.placeholder(tf.float32) 


predictions, softmax, fc8, p = inference_op(images, keep_prob) 


然后 创建 Session 并 初始 化 全 局 参数 。 


init = tf.global variables initializer() 
sess = tf.Session() 


sess.run(init) 


我 们 通过 将 keep_prob 设 为 1.0 来 执行 预测 ， 并 使 用 time_tensorflow_run 
评测 forward 运 算 时 间 。 再 计算 VGGNet-16 最 后 的 全 连接 层 的 输出 fc8 的 12 
loss， 并 使 用 tf.gradients 求 相对 于 这 个 loss 的 所 有 模型 参数 的 梯度 。 最 后 使 
用 time_tensorflow_run 评 测 backward 运 算 时 间 ， 这 里 target 为 求解 梯度 的 操 
作 grad，keep_prob 为 0.5。 


time_tensorflow_run(sess, predictions, {keep _prob:1.0}, "Forward") 
objective = tf.nn.12_loss(fc8) 
grad = tf.gradients(objective, p) 


time_tensorflow_run(sess, grad, {keep _prob:@.5}, "“Forward-backward" ) 


我 们 设置 batch_size 为 32， 因 为 VGGNet-16 的 模型 体积 比较 大 ， 如 果 
使 用 较 大 的 batch_size ，GPU 显 存 会 不 够 用 。 最 后 执行 评测 的 主 了 图 数 


run_benchmark(), ll) ig} VGGNet-16 在 TensorFlow 上 的 forward 和 backward 
耗 时 。 


batch_size=32 
num_batches=166 


run_benchmark() 


forward 计 算 时 平均 每 个 batch 的 耗 时 为 0.152s， 相 比 于 同样 batch size 
的 AlexNet 的 0.026s (如 果 无 LRN 则 是 0.007s) 慢 6 倍 。 这 说 明 VGGNet-16 
的 计算 复杂 度 相 比 AlexNet 确 实 高 了 很 多 ， 不 过 同样 也 带 来 了 很 大 的 准确 
率 提升 。 


2016-12-01 17:13:31.761549: step ©, duration = 6.151 


2016-12-01 17:13:33.281319: step 10, duration = 0.151 
2016-12-01 17:13:34.789695: step 20, duration = 0.151 
2016-12-01 17:13:36.311346: step 30, duration = 0.158 
2016-12-01 17:13:37.824452: step 40, duration = 0.153 
2016-12-01 17:13:39.341594: step 50, duration = 0.152 
2016-12-01 17:13:40.859964: step 60, duration = 0.152 
2016-12-01 17:13:42.379664: step 70, duration = @.153 
2016-12-01 17:13:43.900802: step 80, duration = @.153 
2016-12-01 17:13:45.424529: step 90, duration = 0.151 


2016-12-01 17:13:46.795223: Forward across 100 steps, 0.152 +/- 0.002 sec / 
batch 


而 backward 求 解 梯 度 时 ， 每 个 batch 的 平均 耗 时 达到 0.617s， 相 比 于 
AlexNet 的 0.078s 也 高 了 很 多 。 


2016-12-01 17:13:57.078991: step ©, duration = 0.613 
2016-12-01 17:14:03.241287: step 10, duration = 0.621 
2016-12-01 17:14:09.398178: step 20, duration = 0.616 
2016-12-01 17:14:15.555161: step 30, duration = 0.617 
2016-12-01 17:14:21.713196: step 40, duration = 0.614 
2016-12-01 17:14:27.879734: step 50, duration = 0.614 
2016-12-01 17:14:34.044447: step 60, duration = 6 

2016-12-01 17:14:40.204176: step 70, duration = 6 

2016-12-01 17:14:46.373392: step 80, duration = 6 

2016-12-01 17:14:52.550798: step 90, duration = 0.620 


2016-12-01 17:14:58.123548: Forward-backward across 100 steps, 0.617 +/- 0.0 


02 sec / batch 


至 此 VGGNet-16 的 实现 和 评测 就 完成 了 。VGG 系 列 的 卷 积 神经 网 络 
在 ILSVRC 2014 比 赛 中 最 终 达 到 了 7.3% 的 错误 率 ， 相 比 AlexNet 进 步 非常 
大 ， 读 者 可 以 使 用 ImageNet 数 据 集 复 现 其 结果 。VGGNet 的 模型 参数 里 然 
比 AlexNet 多 ， 但 反而 只 需要 较 少 的 迭代 次 数 就 可 以 收敛 ， 主 要 原因 是 更 
深 的 网 络 和 更 小 的 卷 积 核 带 来 的 隐 式 的 正则 化 效果 。VGGNet 凭 借 其 相对 
不 算 很 高 的 复杂 度 和 优秀 的 分 类 性 能 ， 成 为 了 一 代 经 典 的 卷 积 神经 网 
络 ， 直 到 现在 依然 被 应 用 在 很 多 地 方 。 


6.3 ”TensorFlow 实 现 Google Inception Net 


Google Inception Net 首 次 出 现在 ILSVRC 2014 的 比赛 中 (和 VGGNet 
同年 ) ， 就 以 较 大 优势 取得 了 第 一 名 。 那 届 比 赛 中 的 Inception Net 通 常 被 
称 为 Inception V1， 它 最 大 的 特点 是 控制 了 计算 量 和 参数 量 的 同时 ， 获 得 
了 非常 好 的 分 类 性 能 top-5 错 误 率 6.67%， 只 有 AlexNet 的 一 半 不 到 。 
Inception V1 有 22 层 深 ， 比 AlexNet 的 8 层 或 者 YGGNet 的 19 层 还 要 更 深 。 但 
其 计算 量 只 有 15 亿 次 浮 点 运算 ， 同 时 只 有 500 万 的 参数 量 ， 仪 为 AlexNet 
参数 量 (6000 万 ) 的 V12， 却 可 以 达到 远 胜 于 AlexNet 的 准确 率 ， 可 以 说 
是 非常 优秀 并 且 非 常 实用 的 模型 。Inception V1 降低 参数 量 的 目的 有 两 
所， 第 一 ， 参 数 越 多 模型 越 上 庞大， 需要 供 模型 学 习 的 数据 量 就 越 大 ， 而 
目前 高 质量 的 数据 非常 昂贵 ; 第 二 ， 参 数 越 多 ， 耗 费 的 计算 资源 也 会 更 


K o Inception V1 参数 少 但 效果 好 的 原因 除了 模型 层 数 更 深 表达 能 力 更 
强 外 ， 还 有 两 点 : 一 是 去 除了 最 后 的 全 连接 层 ， 用 全 局 平均 池 化 层 (Bp 
将 图 片 尺寸 变 为 1x1) 来 取代 它 。 全 连接 层 几乎 占据 了 AlexNet 或 VGGNEet 
中 90% 的 参数 量 ， 而 且 会 引起 过 拟 合 ， 去 除 全 连接 层 后 模型 训练 更 快 并 且 
减轻 了 过 拟 合 。 用 全 局 平均 池 化 层 取 代 全 连接 层 的 做 法 借鉴 了 Network In 
Network (以 下 简称 NIN) 论文 。 二 是 Inception V1 中 精心 设计 的 Inception 
Module 提 高 了 参数 的 利用 效率 ， 其 结构 如 图 6-10 所 示 。 这 一 部 分 也 借鉴 
了 NIN 的 思想 ， 形 象 的 解释 就 是 Inception Module 本 身 如 同 大 网 络 中 的 一 
个 小 网 络 ， 其 结构 可 以 反复 堆 荆 在 一 起 形成 大 网 络 。 不 过 Inception V1 比 
NIN 更 进一步 的 是 增加 了 分 支 网 络 ，NIN 则 主要 是 级 联 的 卷 积 层 和 
MLPConv 层 。 一 般 来 说 卷 积 层 要 提升 表达 能 力 ， 主 要 依靠 增加 输出 通道 
数 ， 但 副作用 是 计算 量 增 大 和 过 拟 合 。 每 一 个 输出 通道 对 应 一 个 渡 疲 
器 ， 同 一 个 滤波 器 共享 参数 ， 只 能 提取 一 类 特征 ， 因 此 一 个 输出 通道 只 
能 做 一 种 特征 处 理 。 而 NIN 中 的 MLPConv 则 拥有 更 强大 的 能 力 ， 人 允许 在 
输出 通道 之 间 组 合 信息 ， 因 此 效果 明显 。 可 以 说 ，MLPConv 基 本 等 效 于 
普通 卷 积 层 后 再 连接 1x1 的 卷 积 和 ReLU 激 活 函 数 。 

我 们 再 来 看 Inception Module 的 基本 结构 ， 其 中 有 4 个 分 支 : 第 一 个 分 
支 对 输入 进行 1x1 的 卷 积 ， 这 其 实 也 是 NIN 中 提出 的 一 个 重要 结构 。1x1 
的 卷 积 是 一 个 非常 优秀 的 结构 ， 它 可 以 跨 通 道 组 织 信息 ， 提 高 网 络 的 表 
达能 力 ， 同 时 可 以 对 输出 通道 升 维和 降 维 。 可 以 看 到 Inception Module 的 4 
个 分 支 都 用 到 了 1x1 卷 积 ， 来 进行 低 成 本 (计算 量 比 3x3 小 很 多 ) 的 跨 通 
道 的 特征 变换 。 第 二 个 分 支 先 使 用 了 1x1 卷 积 ， 然 后 连接 3x3 卷 积 ， 相 当 
于 进行 了 两 次 特征 变换 。 第 三 个 分 支 类 似 ， 先 是 1x1 的 卷 积 ， 然 后 连接 
5x5 卷 积 。 最 后 一 个 分 支 则 是 3x3 最 大 池 化 后 直接 使 用 1x1 卷 积 。 我 们 可 以 
发 现 ， 有 的 分 支 只 使 用 1x1 卷 积 ， 有 的 分 支 使 用 了 其 他 尺寸 的 卷 积 时 也 会 
再 使 用 1x1 卷 积 ， 这 是 因为 1x1 卷 积 的 性 价 比 很 高 ， 用 很 小 的 计算 量 就 能 
增加 一 层 特 征 变换 和 非 线性 化 。Inception Module 的 4 个 分 支 在 最 后 通过 一 
个 聚合 操作 合并 (在 输出 通道 数 这 个 维度 上 聚合 ) Inception Module 中 
包含 了 3 种 不 同 尺寸 的 卷 积 和 1 个 最 大 闻 化 ， 增 加 了 网 络 对 不 同 尺度 的 适 
应 性 ， 这 一 部 分 和 Mnulti-Scale 的 思想 类 似 。 早 期 计算 机 视觉 的 研究 中 ， 受 
灵 长 类 神经 视觉 系统 的 启发 ，Serre 使 用 不 同 尺 寸 的 Gabor 渡 波 器 处 理 不 同 
尺寸 的 图 片 ，Inception V1 借鉴 了 这 种 思想 。Inception V1 的 论文 中 指出 ， 
Inception Module 可 以 让 网 络 的 深度 和 宽度 高 效率 地 扩充 ， 提 升 准确 率 且 
不 致 于 过 拟 合 。 


Filter 
concatenation 


3x3 convolutions 5x5 convolutions 1x1 convolutions 


$ $ $ 


1x1 convolutions 


1x1 convolutions 1x1 convolutions 3x3 max pooling 


Previous layer 


图 6-10 Inception Module 结 构图 


人 脑 神经 元 的 连接 是 稀 疏 的 ， 因 此 研究 者 认为 大 型 神经 网 络 的 合理 
的 连接 方式 应 该 也 是 黎 跪 的 。 稀 疏 结构 是 非常 适合 神经 网 络 的 一 种 结 
构 ， 尤 其 是 对 非常 大 型 、 非 常 深 的 神经 网 络 ， 可 以 减轻 过 拟 合 并 降低 计 
算 量 ， 例 如 卷 积 神经 网 络 就 是 稀疏 的 连接 。Inception Net 的 主要 目标 就 是 
找到 最 优 的 稀疏 结构 单元 ( 即 Inception Module) ， 论 文中 提 到 其 稀疏 结 
构 基于 Hebbian 原 理 ， 这 里 简单 解释 一 下 Hebbian 原 理 : 神经 反射 活动 的 持 
续 与 重复 会 导致 神经 元 连接 稳定 性 的 持久 提升 ， 当 两 个 神经 元 细胞 A 和 B 
距离 很 近 ， 并 且 A 参 与 了 对 B 重 复 、 持 续 的 兴奋 ， 那 么 某 些 代谢 变化 会 导 
致 A 将 作为 能 使 B 兴 奋 的 细胞 。 总 结 一 下 即 “ 一 起 发 射 的 神经 元 会 连 在 一 
起 ” (Cells that fire together,wire together) ， 学 习 过 程 中 的 刺激 会 使 神经 
元 间 的 突 触 强度 增加 。 受 Hebbian 原 理 启发 ， 另 一 篇 文章 Provable Bounds 
for Learning Some Deep Representations 提出 ， 如 果 数 据 集 的 概率 分 布 可 以 
被 一 个 很 大 很 稀疏 的 神经 网 络 所 表达 ， 那 么 构筑 这 个 网 络 的 最 佳 方法 是 
逐 层 构筑 网 络 : 将 上 一 层 高 度 相 关 (correlated) 的 节点 聚 类 ， 并 将 聚 类 
出 来 的 每 一 个 小 族 (cluster) 连接 到 一 起 ， 如 图 6-11 所 示 。 这 个 相关 性 高 
的 节点 应 该 被 连接 在 一 起 的 结论 ， 即 是 从 神经 网 络 的 角度 对 Hebbian 原 理 
有 效 性 的 证 明 。 


图 6-11 ”将 高 度 相 关 的 节点 连接 在 一 起 ， 形 成 稀疏 网 络 


因此 一 个 “好 ”的 稀 跑 结构 ， 应 该 是 符合 Hebbian 原 理 的 ， 我 们 应 该 把 
相关 性 高 的 一 簇 神经 元 节 和 点 连接 在 一 起 。 在 普通 的 数据 集中 ， 这 可 能 需 
要 对 神经 元 节操 聚 类 ， 但 是 在 图 片 数据 中 ， 天 然 的 就 是 临近 区 域 的 数据 
相关 性 高 ， 因 此 相 邻 的 像素 点 被 卷 积 操作 连接 在 一 起 。 而 我 们 可 能 有 多 
个 卷 积 核 ， 在 同一 空间 位 置 但 在 不 同 通道 的 卷 积 核 的 输出 结果 相关 性 极 
高 。 因 此 ， 一 个 1x1 的 卷 积 就 可 以 很 自然 地 把 这 些 相关 性 很 高 的 、 在 同一 
个 空间 位 置 但 是 不 同 通道 的 特征 连接 在 一 起 ， 这 就 是 为 什么 1x1 卷 积 这 么 
频繁 地 被 应 用 到 Inception Net 中 的 原因 。1x1 卷 积 所 连接 的 节点 的 相关 性 
是 最 高 的 ， 而 稍微 大 一 点 尺寸 的 卷 积 ， 比 如 3x3、5x5 的 卷 积 所 连接 的 市 
上 幢 相 关 性 也 很 高 ， 因 此 也 可 以 适当 地 使 用 一 些 大 尺寸 的 卷 积 ， 增 加 多 样 
性 (diversity) 。 最 后 Inception Module 通 过 4 个 分 支 中 不 同 尺寸 的 1x1、 
3x3、5x5 等 小 型 卷 积 将 相关 性 很 高 的 节点 连接 在 一 起 ， 就 完成 了 其 设计 
初衷 ， 构 建 出 了 很 高 效 的 符合 Hebbian 原 理 的 稀 玻 结构 。 


在 Inception Module 中 ， 通 常 1x1 卷 积 的 比例 (输出 通道 数 占 比 ) 最 
高 ，3x3 卷 积 和 5x5 卷 积 稍 低 。 而 在 整个 网 络 中 ,会 有 多 个 堆 国 的 
Inception Module ， 我 们 希望 靠 后 的 Inception Module 可 以 捕捉 更 高 阶 的 抽 
象 特 征 ， 因 此 靠 后 的 Inception Module 的 卷 积 的 空间 集中 度 应 该 逐渐 降 
低 ， 这 样 可 以 捕获 更 大 面积 的 特征 。 因 此 ， 越 靠 后 的 Inception Module 
中 ，3x3 和 5x5 这 两 个 大 面积 的 卷 积 核 的 占 比 (输出 通道 数 ) 应 该 更 多 。 


Inception Net 有 22 层 深 ,除了 最 后 一 层 的 输出 ， 其 中 间 节 点 的 分 类 效 
果 也 很 好 。 因 此 在 Inception Net 中 ， 还 使 用 到 了 辅助 分 类 节点 (auxiliary 
classifiers) ， 即 将 中 间 某 一 层 的 输出 用 作 分 类 ， 并 按 一 个 较 小 的 权重 
(0.3) 加 到 最 终 分 类 结果 中 。 这 样 相 当 于 做 了 模型 融合 ， 同 时 给 网 络 增 
加 了 反 向 传播 的 梯度 信号 ， 也 提供 了 额外 的 正则 化 ， 对 于 整个 mception 
Net 的 训练 很 有 神 益 。 

当年 的 Inception V1 还 是 跑 在 TensorFlow 的 前 辈 DistBelief 上 的 ， 并 且 
只 运行 在 CPU 上 。 当 时 使 用 了 异步 的 SGD 训 练 ， 学 习 速 率 每 迭代 8 个 epoch 
降低 4%。 同 时 ，Inception V1 也 使 用 了 Moulti-Scale、Multi-Crop 等 数据 增强 
方法 ， 并 在 不 同 的 采样 数据 上 训练 了 7 个 模型 进行 融合 ， 得 到 了 最 后 的 
ILSVRC 2014 的 比赛 成 绩 一 top-5 错 误 率 6.67%。 


同时 ，Google Inception Net 还 是 一 个 大 家 族 ， 包 括 : 


- 2014 年 9 月 的 论文 Going Deeper with Convolutions 提出 的 Inception V1 
(top-5 错 误 率 6.67%) 。 


2015 年 2 月 的 论文 Batch Normalization: Accelerating Deep Network 
Training by Reducing Internal Covariate 提出 的 Inception V2 (top-5 错 误 率 
4.8%) 。 


- 2015 年 12 月 的 论文 Rethinking the Inception Architecture for Computer 
Vision 提出 的 Inception V3 (top-5 错 误 率 3.5%) o 


- 2016 年 2 月 的 论文 Inception-v4,Inception-ResNet and the Impact of 
Residual Connections on Learning 提出 的 Inception V4 (top-5 错 误 率 
3.08%) 。 


Inception V2 学 习 了 VGGNet， 用 两 个 3x3 的 卷 积 代 符 5x5 的 大 卷 积 
(用 以 降低 参数 量 并 减轻 过 拟 合 ) ， 还 提出 了 著名 的 Batch Normalization 
(以 下 简称 BN) 方法 。BN 是 一 个 非常 有 效 的 正则 化 方法 ， 可 以 让 大 型 卷 
积 网 络 的 训练 速度 加 快 很 多 倍 ， 同 时 收敛 后 的 分 类 准确 率 也 可 以 得 到 大 
幅 提高 。BN 在 用 于 神经 网 络 某 层 时 ， 会 对 每 一 个 mini-batch 数 据 的 内 部 进 
行 标准 化 (normalization) 处 理 ， 使 输出 规范 化 到 N(0,1) 的 正 态 分 布 ， 减 
少 了 Internal Covariate Shift (内 部 神经 元 分 布 的 改变 ) 。BN 的 论文 指出 ， 
传统 的 深度 神经 网 络 在 训练 时 ， 每 一 层 的 输入 的 分 布 都 在 变化 ， 导 致 训 
练 变 得 困难 ， 我 们 只 能 使 用 一 个 很 小 的 学 习 速 率 解 决 这 个 问题 。 而 对 每 
一 层 使 用 BN 之 后 ， 我 们 就 可 以 有 效 地 解决 这 个 问题 ， 学 习 速 率 可 以 增 大 
很 多 倍 ， 达 到 之 前 的 准确 率 所 需要 的 迭代 次 数 只 有 1/14， 训 练 时 间 大 大 缩 
短 。 而 达到 之 前 的 准确 率 后 ， 可 以 继续 训练 ， 并 最 终 取 得 远 超 于 Inception 
V1 模型 的 性 能 一 一 top-5 错 误 率 4.8%， 已 经 优 于 人 眼 水 平 。 因 为 BN 某 种 意 
义 上 还 起 到 了 正则 化 的 作用 ， 所 以 可 以 减少 或 者 取消 Dropout， 简 化 网 络 
结构 。 


当然 ， 只 是 单纯 地 使 用 BN 获得 的 增益 还 不 明显 ， 还 需要 一 些 相应 的 
调整 : 增 大 学 习 速 率 并 加 快 学 习 豪 减速 度 以 适用 BN 规范 化 后 的 数据 ;去 
除 Dropout 并 减轻 L2 正 则 ( 因 BN 已 起 到 正则 化 的 作用 ) ; ABRLRN; 更 彻 
底 地 对 训练 样本 进行 shuffle; 减少 数据 增强 过 程 中 对 数据 的 光学 畸变 (A 
为 BN 训练 更 快 ， 每 个 样本 被 训练 的 次 数 更 少 ， 因 此 更 真实 的 样本 对 训练 
更 有 帮助 ) 。 在 使 用 了 这 些 措 施 后 ，Inception V2 在 训练 达到 Inception V1 
的 准确 率 时 快 了 14 倍 ， 并 且 模 型 在 收敛 时 的 准确 率 上 限 更 高 。 


而 Inception V3 网 络 则 主要 有 两 方面 的 改造 : 一 是 引入 了 Factorization 
into small convolutions 的 思想 ， 将 一 个 较 大 的 二 维 卷 积 拆 成 两 个 较 小 的 一 
维 卷 积 ， 比 如 将 7x7 卷 积 拆 成 1x7 卷 积 和 7x1 卷 积 ， 或 者 将 3x3 卷 积 拆 成 1x3 
卷 积 和 3x1 卷 积 ， 如 图 6-12 所 示 。 一 方面 节约 了 大 量 参数 ， 加 速 运算 并 减 
轻 了 过 拟 合 〈 比 将 7x7 卷 积 拆 成 1x7 卷 积 和 7x1 卷 积 ， 比 拆 成 3 个 3x3 卷 积 更 
节约 参数 ) ， 同 时 增加 了 一 层 非 线性 扩展 模型 表达 能 力 。 论 文中 指出 ， 
这 种 非 对 称 的 卷 积 结构 拆 分 ， 其 结果 比 对 称 地 拆 为 几 个 相同 的 小 卷 积 核 
效果 更 明显 ， 可 以 处 理 更 多 、 更 丰富 的 空间 特征 ， 增 加 特征 多 样 性 。 


图 6-12 ”将 一 个 3x3 卷 积 拆 成 1x3 卷 积 和 3x1 卷 积 


另 一 方面 ，Inception V3 优化 了 Inception Module 的 结构 ， 现 在 
Inception Module 有 35x35、17x17 和 8x8 三 种 不 同 结构 ， 如 图 6-13 所 示 。 这 
些 Inception Module 只 在 网 络 的 后 部 出 现 ， 前 部 还 是 普通 的 卷 积 层 。 并 且 
Inception V3 除了 在 Inception Module 中 使 用 分 支 ， 还 在 分 支 中 使 用 了 分 支 

(8x8 的 结构 中 ) ， 可 以 说 是 Network In Network In Network。 


Filter Concat 


Filter Concat 


图 6-13 Inception V3 中 三 种 结构 的 Inception Module 


而 Inception V4 相 比 V3 主 要 是 结合 了 微软 的 ResNet， 而 ResNet 将 在 6.4 
节 单 独 讲解 ， 这 里 不 多 做 父 述 。 因 此 本 节 将 实现 的 是 mception V3， 其 整 
个 网 络 结构 如 表 6-1 所 示 。 由 于 Google Inception Net V3 相对 比较 复杂 ， 所 
以 这 里 使 用 tf.contrib.slim 辅 助 设计 这 个 网 络 。contrib.slim 中 的 一 些 功 能 和 
组 件 可 以 大 大 减少 设计 Inception Net 的 代码 量 ， 我 们 只 需要 少量 代码 即 可 
构建 好 有 42 层 深 的 Inception V3。 


表 6-1 Inception V3 网 络 结构 


类 型 kernel 尺寸 / 步 长 〈 或 注释 ) 输入 尺寸 


卷 积 299x299x3 
sx MART 
卷 积 3x3 / 1 149x149x32 
ute Ta 
Inception 模块 组 35x35x288 
Inception 模块 组 17x17x768 
Inception 模块 组 8x8x1280 
m ET 
Softmax 分 类 输出 1x1x1000 


首先 定义 一 个 简单 的 国 数 trunc_normal， 产 生 截 断 的 正 态 分 布 。 本 节 
代码 主要 来 自 TensorFlow 的 开源 实现 5 。 


import tensorflow as tf 
slim = tf.contrib.slim 


trunc_normal = lambda stddev: tf.truncated_normal_initializer(@.0, stddev) 


FE XM Xinception_v3_arg_scope, FASK+ AM 2Z8h24 ASIN 
数 的 默认 参数 ， 比 如 卷 积 的 激活 图 数 、 权 重 初始 化 方式 、 标 准 化 器 等 。 
设置 L2 正 则 的 weight_decay 默 认 值 为 0.00004， 标 准 差 stddev 默 认 值 为 0.1， 
参数 batch_norm_var_collection 默 认 值 为 moving_vars。 接 下 来 ， 定 义 batch 
normalization 的 参数 字典 ， 定 义 其 衰减 系数 decay 为 0.9997 ，epsilon 为 
0.001 ， updates_collctions 为 tf.GrpahKeys.UPDATE_OPS ， 然 后 字典 
variables_collections 中 beta 和 gamma 均 设置 为 None ，moving_mean 和 
moving_variance 均 设置 为 前 面 的 batch_norm_var_collectiono 


接 下 来 使 用 slim.arg_scope， 这 是 一 个 非常 有 用 的 工具 ， 它 可 以 给 函 
数 的 参数 自动 赋予 某 些 默认 值 。 例 如 ， 这 句 with 


slim.arg_scope([slim.conv2d,slim.fully_connected],weig 
hts_regularizer=slim.12_regularizer(weight_decay)) 会 对 
[slim.conv2d,slim.fully_connected] 这 两 个 图 数 的 参数 自 动 赋值 ， 将 参数 
weights_regularizer 的 值 默认 设 为 slim.12_regularizer(w eight_decay)。 使 用 
了 slim.arg_scope 后 就 不 需要 每 次 都 重复 设置 参数 了 ， 只 需要 在 有 修改 时 
设置 。 接 下 来 ， 髋 套 一 个 slim. a scope, YAR AL eK Mslim.conv2d 
的 几 个 参数 赋予 默认 值 ， 其 权重 初始 化 器 weights_initializer 设 置 为 
trunc_normal(stddev) ， 激活 函 数 设置 为 ReLU ， 标 准 化 器 设置 为 
slim.batch norm ， 标 准 化 器 的 参数 设置 为 前 面 定 义 的 batch no 
rm_params。 最 后 返回 定义 好 的 scope。 


因为 事先 定义 好 了 slim.conv2d 中 的 各 种 默认 参数 ， 包 括 激活 函数 和 
标准 化 器 ， 因此 后 面 定义 一 个 疮 积 层 将 会 变 和 导 非 常 方 便 。 我 们 可 以 用 一 
行 代码 定义 一 个 卷 积 层 ， 整 体 代码 会 变 得 非常 简洁 美观 ， 同 时 设计 网 络 
的 工作 量 也 会 大 大 减轻 。 


def inception_v3_arg_scope(weight_decay=0.@00004, 
stddev=6.1， 


batch_norm_var_collection='moving vars'): 


batch_norm_params = { 
"decay': 0.9997, 
"epsilon': 0.001, 
“updates collections’: tf.GraphKeys.UPDATE_OPS, 
"variables collections': { 
"beta': None, 
"gamma': None, 
"moving mean': [batch_norm_var_collection], 


"moving variance’: [batch_norm_var_collection], 


with slim.arg scope([slim.conv2d, slim.fully_connected], 
weights _regularizer=slim.12 regularizer(weight_decay)): 
with slim.arg_ scope( 
[slim.conv2d], 
weights_initializer=tf.truncated_normal_initializer(stddev=stddev), 
activation_fn=tf.nn.relu, 
normalizer_fn=slim.batch_norm, 
normalizer_params=batch_norm_params) as sc: 


return sc 


接 下 来 我 们 就 定义 图 数 inception_v3_base， 它 可 以 生成 Inception V3 网 
络 的 卷 积 部 分 ， 人 参数 inputs 为 输入 的 图 片 数据 的 tensor，scope 为 包含 了 子 
数 默 认 参 数 的 环境 。 我 们 定义 一 个 字典 表 end_points， 用 来 保存 某 些 关键 
节点 供 之 后 使 用 。 接 着 再 使 用 slim.arg_scope ， 对 slim.conv2d 、 
slim.max_pool2d 和 slim_avg_pool2d 这 三 个 函数 的 参数 设置 默认 值 ， 将 
stride 设 为 1，padding 设 为 VALID。 下 面 正式 开始 定义 Inception V3 的 网 络 
结构 ， 首 先是 前 面 的 非 Inception Module 的 卷 积 层 。 这 里 直接 使 用 


slim.conv2d 创 建 卷 积 层 ，slim.conv2d 的 第 1 个 参数 为 输入 的 tensor， 第 2 个 
参数 为 输出 的 通道 数 ， 第 3 个 参数 为 卷 积 核 尺 寸 ， 第 4 个 参数 为 步 长 
stride， 第 5 个 参数 为 padding 模 式 。 我 们 的 第 一 个 卷 积 层 的 输出 通道 数 为 
32， 卷 积 核 尺 寸 为 3x3， 步 长 为 2，padding 模 式 则 是 默认 的 VALID。 后面 
的 几 个 卷 积 层 采 用 相同 的 形式 ， 按 照 论文 中 的 定义 ， 逐 层 定 义 好 网 络 结 
构 。 因 为 使 用 了 slim 太 slim.arg_scope， 我 们 一 行 代码 就 可 以 定义 好 一 个 卷 
积 层 ， 相 比 之 前 AlexNet 的 实现 中 使 用 好 几 行 代码 定义 一 个 卷 积 层 ， 或 是 
VGGNet 中 专门 写 一 个 图 数 来 定义 卷 积 层 ， 都 更 加 方便 。 


我 们 可 以 观察 到 ， 在 前 面 几 个 普通 的 非 Inception Module 的 卷 积 层 
中 ， 主 要 使 用 了 3x3 的 小 卷 积 核 ， 这 是 充分 借鉴 了 VGGNet 的 结构 。 同 
时 Inception V3 论文 中 也 提出 了 Factorization into small convolutions 思 
想 ， 利 用 两 个 1 维 卷 积 模拟 大 尺寸 的 2 维 卷 积 ， 减 少 参 数量 同时 增加 非 线 
性 。 前 面 几 层 卷 积 中 还 有 一 层 1x1 卷 积 ， 这 也 是 前 面 提 到 的 Inception 
Module 中 经 党 使 用 的 结构 之 一 ， 可 低 成 本 的 跨 通 道 的 对 特征 进行 组 合 。 
另外 可 以 看 到 ， 除 了 第 一 个 卷 积 层 步 长 为 2， 其 余 的 卷 积 层 步 长 均 为 1， 
而 池 化 层 则 是 尺寸 为 3*3、 步 长 为 2 的 重 赤 最 大 池 化 ， 这 是 AlexNet 中 使 用 
过 的 结构 。 网 络 的 输入 数据 尺寸 为 299x299x3， 在 经 历 3 个 步 长 为 2 的 层 之 
后 ， 尺 寸 最 后 缩小 为 35x35x192， 空 间 尺 寸 大 大 降低 ， 但 是 输出 通道 增加 
了 很 多 。 这 部 分 代码 中 一 共有 5 个 卷 积 层 ，2 个 池 化 层 ， 实 现 了 对 输入 图 
片 数 据 的 尺寸 压缩 ， 并 对 图 片 特 征 进行 了 抽象 。 


def inception_v3_base(inputs, scope=None): 


end_ points = {} 
with tf.variable_scope(scope, ‘'InceptionV3', [inputs]): 
with slim.arg scope([slim.conv2d, slim.max_pool2d, slim.avg pool2d], 
stride=1, padding='VALID'): 
net = slim.conv2d(inputs, 32, [3, 3], stride=2, scope='Conv2d_1a_3x3') 


net = slim.conv2d(net, 32, [3, 3], scope='Conv2d 2a 3x3") 


net = slim.conv2d(net, 64, [3, 3], padding='SAME', 
scope='Conv2d_2b_3x3') 

net = slim.max_pool2d(net, [3, 3], stride=2, scope='MaxPool_3a_3x3') 

net = slim.conv2d(net, 80, [1, 1], scope='Conv2d_3b 1x1") 

net = slim.conv2d(net, 192, [3, 3], scope='Conv2d_ 4a 3x3") 

net = slim.max_pool2d(net, [3, 3], stride=2, scope='MaxPool_5a_3x3') 


接 下 来 就 将 是 三 个 连续 的 Inception 模 块 组 ， 这 三 个 Inception 模 块 组 中 
各 自分 别 有 多 Niantic Module ， 这 部 分 的 网 构 即 是 Inception V3 的 
精华 所 在 。 每 个 Inception 模 块 组 内 部 的 几 个 Inception Module 结 构 非常 类 
似 , 但 存在 一 些 细节 不 同 。 


第 1 个 Inception 模 块 组 包含 了 3 个 结构 类 似 的 Inception Module, Eff] 
的 结构 和 图 6-13 中 第 一 幅 图 非常 相似 。 其 中 第 1 个 Inception Module 的 名 称 
为 Mixed_5b。 我 们 先 使 用 slim.arg_scope 设 置 所 有 Inception 模 块 组 的 默认 
参数 ， 将 所 有 卷 积 层 、 最 大 闻 化 、 平 均 闻 化 层 的 步 长 设 为 1，padding 模 式 
设 为 SAME。 然 后 设置 这 个 Inception Module 的 variable_scope 名 称 为 
Mixed_5b。 这 个 Inception Module 中 有 4 个 分 支 ， 从 Branch_0 到 Branch_3， 
第 一 个 分 支 为 有 64 输 出 通道 的 1x1 卷 积 ; 第 2 个 分 支 为 有 48 输 出 通道 的 1x1 
卷 积 ， 连 接 有 64 输 出 通道 的 5x5 卷 积 ; 第 3 个 分 又 为 有 64 输 出 通道 的 1x1 卷 
积 ， 再 连续 连接 2 个 有 96 输 出 通道 的 3x3 卷 积 ; 第 4 个 分 支 为 3x3 的 平均 池 
化 ， 连 接 有 32 输 出 通道 的 1x1 卷 积 。 最 后 ， 使 用 tf.concat 将 4 个 分 支 的 输出 
合并 在 一 起 (在 第 3 个 维度 合并 ， 即 输出 通道 上 合并 ) ， 生 成 这 个 
Inception Module 的 最 终 输出 。 因 为 这 里 所 有 的 层 步 长 均 为 1， 并 且 padding 
模式 为 SAME， 所 以 图 片 的 尺寸 并 不 会 缩小 ， 依 然 维 持 在 35x35。 不 过 通 
道 数 增加 了 ，4 个 分 支 的 输出 通道 数 之 和 64+64+96+32=256， 即 最 终 输 出 
PS tensor I 39 35%35"256, 这 里 需 注 意 ， 第 1 个 Inception 模 块 组 中 所 有 
Inception Module 输 出 的 图 片 尺 寸 均 为 35x35， 但 是 后 两 个 Inception Module 
的 通道 数 会 发 生变 化 。 


with slim.arg scope([slim.conv2d, slim.max_pool2d, slim.avg_pool2d], 
stride=1, padding='SAME"): 
with tf.variable_scope('Mixed_5b'): 
with tf.variable_scope('Branch_@'): 
branch_@ = slim.conv2d(net, 64, [1, 1], scope='Conv2d_ @a_1x1') 
with tf.variable_scope('Branch_1'): 
branch_1 = slim.conv2d(net, 48, [1, 1], scope='Conv2d_@a_1x1') 
branch_1 = slim.conv2d(branch_1, 64, [5, 5], 


scope='Conv2d_@b_5x5') 
with tf.variable_scope('Branch_2'): 
branch_2 = slim.conv2d(net, 64, [1, 1], scope='Conv2d_@a_1x1') 
branch_2 = slim.conv2d(branch_2, 96, [3, 3], 
scope='Conv2d_@b_3x3') 
branch_2 = slim.conv2d(branch_2, 96, [3, 3], 
scope='Conv2d_@c_3x3') 
with tf.variable_scope('Branch_3'): 
branch 3 = slim.avg pool2d(net, [3, 3], scope='AvgPool_ @a_3x3') 
branch_3 = slim.conv2d(branch_3, 32, [1, 1], 
scope='Conv2d_@b_1x1') 
net = tf.concat([branch_@, branch_1, branch_2, branch_3], 3) 


接 下 来 是 第 1 个 Inception 模块 组 的 第 2 个 Inception Module 
Mixed_5c， 这 里 依然 使 用 前 面 设置 的 默认 参数 : 步 长 为 1，padding 模 式 为 
SAME。 这 个 Inception Module 同 样 有 4 个 分 支 ， 唯 一 不 同 的 是 第 4 个 分 支 
最 后 接 的 是 64 输 出 通道 的 1x1 卷 积 ， 而 此 前 是 32 输 出 通道 。 因 此 ， 我 们 输 
出 tensor 的 最 终 尺 寸 为 35x35x288， 输 出 通道 数 相 比 之 前 增加 了 32。 


with tf.variable scope('Mixed_5c'): 
with tf.variable_scope('Branch_@'): 
branch_@ = slim.conv2d(net, 64, [1, 1], scope='Conv2d_@a_1x1') 
with tf.variable scope('Branch_1'): 
branch_1 = slim.conv2d(net, 48, [1, 1], scope='Conv2d_@b_1x1') 
branch_1 = slim.conv2d(branch_1, 64, [5, 5], 
scope='Conv_1_@c_5x5') 
with tf.variable_ scope('Branch_2'): 
branch_2 = slim.conv2d(net, 64, [1, 1], scope='Conv2d_@a_1x1') 
branch_2 = slim.conv2d(branch_2, 96, [3, 3], 
scope='Conv2d_ 6b 3x3 ' ) 
branch_2 = slim.conv2d(branch_2, 96, [3, 3], 
scope='Conv2d_@c_3x3') 
with tf.variable_scope('Branch_3'): 


branch_3 = slim.avg pool2d(net, [3, 3], scope='AvgPool @a_3x3') 


branch_3 = slim.conv2d(branch_3, 64, [1, 1], 
scope='Conv2d_@b_1x1") 
net = tf.concat([branch_@, branch_1, branch_2, branch_3], 3) 


而 第 1 个 Inception 模 块 组 的 第 3 个 Inception Module——Mixed_5d4]_E 
一 个 Inception Module 完 全 相同 ，4 个 分 支 的 结构 、 参 数 一 模 一 样 ， 输 出 
tensor 的 尺寸 也 为 35x35x288。 


with tf.variable_scope('Mixed_5d'): 
with tf.variable scope('Branch_@'): 
branch_@ = slim.conv2d(net, 64, [1, 1], scope='Conv2d_@a_1x1') 
with tf.variable_scope('Branch_1'): 
branch_1 = slim.conv2d(net, 48, [1, 1], scope='Conv2d_@a_1x1') 
branch_1 = slim.conv2d(branch_1, 64, [5, 5], 
scope='Conv2d_@b_5x5') 
with tf.variable_scope('Branch_2'): 
branch_2 = slim.conv2d(net, 64, [1, 1], scope='Conv2d_@a_1x1') 
branch_2 = slim.conv2d(branch_2, 96, [3, 3], 
scope='Conv2d_@b_3x3') 
branch_2 = slim.conv2d(branch_ 2, 96, [3, 3], 
scope='Conv2d_@c_3x3') 
with tf.variable_ scope('Branch_3'): 
branch 3 = slim.avg pool2d(net, [3, 3], scope='AvgPool_@a_3x3') 
branch_3 = slim.conv2d(branch_3, 64, [1, 1], 
scope='Conv2d_@b_1x1') 
net = tf.concat([branch_@, branch_1, branch_2, branch_3], 3) 


第 2 个 Inception 模 块 组 是 一 个 非常 大 的 模块 组 ， 包 含 了 5 个 Inception 
Module， 其 中 第 2 个 到 第 5 个 Inception Module 的 结构 非 澡 类似， 它们 的 结 
构 如 图 6-13 中 第 二 幅 图 所 示 。 其 中 第 1 个 Inception Module 名 称 为 
Mixed_6a， 它 包含 3 个 分 支 。 第 1 个 分 支 是 一 个 384 输 出 通道 的 3x3 卷 积 ， 
这 个 分 支 的 通道 数 一 下 就 超过 了 之 前 的 通道 数 之 和 。 不 过 步 长 为 2， 因 此 
图 片 尺 寸 将 会 被 压缩 ， 且 padding 模 式 为 VALID， 所 以 图 片 尺寸 缩小 为 
17x17; 第 2 个 分 支 有 三 层 ， 分 别 是 一 个 64 输 出 通道 的 1x1 卷 积 和 两 个 96 输 
出 通道 的 3x3 卷 积 。 这 里 需要 注意 ， 最 后 一 层 的 步 长 为 2，padding 模 式 为 
VALID， 因 此 图 片 尺寸 也 被 压缩 ， 本 分 支 最 终 输 出 的 tensor 尺 寸 为 
17x17x96; 第 3 个 分 支 是 一 个 3x3 最 大 闻 化 层 ， 步 长 同样 为 2，padding 模 
式 为 VALID ， 因 此 输出 的 tensor 尺 寸 为 17x17x256。 最 后 依然 是 使 用 
tf.concat 将 三 个 分 支 在 输出 通道 上 合并 ， 最 后 的 输出 尺寸 为 
17x17x(384+96+256)=17x17x768 。 在 第 2 个 Inception 模 块 组 中 ，5 个 
Inception Module 输 出 tensor 的 尺寸 将 全 部 定格 为 17x17x768， 即 图 片 尺寸 
和 输出 通道 数 都 没有 发 生变 化 。 


with tf.variable_scope('Mixed_6a'): 
with tf.variable_scope('Branch_Q'): 
branch_@ = slim.conv2d(net, 384, [3, 3], stride=2, 
padding='VALID', scope='Conv2d_1a_1x1') 
with tf.variable_scope('Branch_1'): 
branch_1 = slim.conv2d(net, 64, [1, 1], scope='Conv2d_@a_1x1') 
branch_1 = slim.conv2d(branch_1, 96, [3, 3], 
scope='Conv2d_@b_3x3') 
branch_1 = slim.conv2d(branch_1, 96, [3, 3], stride=2, 
padding='VALID', scope='Conv2d_1a_1x1') 
with tf.variable_scope('Branch_2'): 
branch_2 = slim.max_pool2d(net, [3, 3], stride=2, padding='VALID', 
scope='MaxPool_1a_3x3') 


net = tf.concat([branch_@, branch_1, branch_2], 3) 


接 下 来 是 第 2 个 Imception 模块 组 的 第 2 个 Inception Module 
Mixed_6b， 它 有 4 个 分 支 。 第 1 个 分 支 是 一 个 简单 的 192 输 出 通道 的 1x1 卷 
积 ; 第 2 个 分 支 由 3 个 卷 积 层 ZAR, 第 1 层 是 128 输 出 通 i 道 的 1x1 卷 积 ， 第 2 
层 是 128 通 道 数 的 1x7 卷 积 ， 第 3 层 是 192 输 出 通 i TOOPITI: 这 里 即 是 
前 面 提 到 的 Factorization into small convolutions 思 想 ， 串 联 的 1x7 卷 积 和 
7x1 卷 积 相 当 于 合成 了 一 个 7x7 卷 积 ， 不 过 参数 量 大 大 减少 了 (只 有 后 者 
的 2/7) 并 减轻 了 过 拟 合 ， 同 时 多 了 一 个 激活 图 数 增强 了 非 线 性 特征 变 
HR ; 第 3 个 分 支 一 下 子 拥有 了 5 个 卷 积 层 ， 分 别 是 128 输 出 通道 的 1x1 卷 
积 ，128 输 出 通道 的 7x1 卷 积 ，128 输 出 通道 的 1x7 卷 积 ，128 输 出 通道 的 
7x1 卷 积 和 192 输 出 通道 的 1x7 卷 积 。 这 个 分 支 可 以 算是 利用 Factorization 
into small convolutions 的 典范 ， 反 复 地 将 7x7 卷 积 进行 拆 分 ; 最 后 ， 第 4 个 
分 支 是 一 个 3x3 的 平均 池 化 层 ， 再 连接 192 输 出 通道 的 1x1 卷 积 。 最 后 将 4 
个 分 支 合 并 ， 这 一 层 输 出 tensor 的 尺寸 即 是 
17x17x(192+192+192+192)=17x17x768。 


with tf.variable_scope('Mixed_6b'): 
with tf.variable_scope('Branch_@'): 
branch_@ = slim.conv2d(net, 192, [1, 1], scope='Conv2d_@a_1x1') 
with tf.variable_scope('Branch_1'): 
branch_1 = slim.conv2d(net, 128, [1, 1], scope='Conv2d_@a_1x1') 
branch_1 = slim.conv2d(branch_1, 128, [1, 7], 
scope='Conv2d_@b_1x7') 
branch_1 = slim.conv2d(branch_1, 192, [7, 1], 
scope='Conv2d_@c_7x1') 
with tf.variable_scope('Branch_2'): 
branch_2 = slim.conv2d(net, 128, [1, 1], scope='Conv2d_@a_1x1') 
branch_2 = slim.conv2d(branch_2, 128, [7, 1], 
scope='Conv2d_@b_7x1') 
branch_2 = slim.conv2d(branch_2, 128, [1, 7], 
scope='Conv2d_@c_1x7') 
branch_2 = slim.conv2d(branch_2, 128, [7, 1], 
scope='Conv2d_@d_7x1') 
branch_2 = slim.conv2d(branch_2, 192, [1, 7], 
scope='Conv2d_@e_1x7') 
with tf.variable_scope('Branch_3'): 
branch_3 = slim.avg_pool2d(net, [3, 3], scope='AvgPool_@a_3x3') 
branch_3 = slim.conv2d(branch_3, 192, [1, 1], 
scope='Conv2d_@b_1x1') 
net = tf.concat([branch_@, branch_1, branch_2, branch_3], 3) 


然后 是 我 们 第 2 个 Inception 模 块 组 的 第 3 个 Inception Module 
Mixed_6c。 Mixed_6c 和 前 面 一 个 Inception Module 非 常 相似 ， 只 有 一 个 地 
方 不 同 ， 即 第 2 个 分 支 和 第 3 个 分 支 中 前 几 个 卷 积 层 的 输出 通道 数 不 同 ， 
从 128 变 为 了 160， 但 是 这 两 个 分 支 的 最 终 输 出 通道 数 不 变 ， 都 是 192。 其 
他 地 方 则 完全 一 致 。 需 要 注意 的 是 ， 我 们 的 网 络 每 经 过 一 个 Inception 
Module， 即 使 输出 tensor 尺 寸 不 变 ， 但 是 特征 都 相当 于 被 重新 精炼 了 一 
遍 ， 其 中 丰富 的 卷 积 和 非 线 性 化 对 提升 网 络 性 能 帮助 很 大 。 


with tf.variable_scope('Mixed_6c'): 


with tf.variable_scope('Branch_@'): 


branch_@ = slim.conv2d(net, 192, [1, 1], scope='Conv2d_@a_1x1') 
with tf.variable scope('Branch_1'): 
branch_1 = slim.conv2d(net, 160, [1, 1], scope='Conv2d_@a_1x1') 
branch_1 = slim.conv2d(branch_1, 160, [1, 7], 
scope='Conv2d_@b_1x7') 
branch_1 = slim.conv2d(branch_1, 192, [7, 1], 
scope='Conv2d_@c_7x1') 
with tf.variable_scope('Branch_2'): 
branch 2 = slim.conv2d(net, 160, [1, 1], scope='Conv2d_@a_1x1') 
branch_2 = slim.conv2d(branch_2, 160, [7, 1], 
scope='Conv2d_@b_7x1') 
branch_2 = slim.conv2d(branch_2, 160, [1, 7], 
scope='Conv2d_@c_1x7') 
branch_2 = slim.conv2d(branch_2, 160, [7, 1], 
scope='Conv2d_@d_7x1') 
branch_2 = slim.conv2d(branch_2, 192, [1, 7], 
scope='Conv2d_@e_1x7') 
with tf.variable_scope('Branch_3'): 
branch 3 = slim.avg_pool2d(net, [3, 3], scope='AvgPool_@a_3x3') 
branch_3 = slim.conv2d(branch_3, 192, [1, 1], 
scope='Conv2d_@b_1x1') 
net = tf.concat([branch_@, branch_1, branch_2, branch_3], 3) 


Mixed_6d 和 前 面 的 Mixed_6c 完 全 一 致 ， 目 的 同样 是 通过 Inception 
Module 精 心 设 计 的 结构 增加 卷 积 和 非 线 性 ， 提 炼 特 征 。 


with tf.variable_ scope('Mixed_6d'): 
with tf.variable_scope('Branch_@'): 
branch 6 = slim.conv2d(net, 192, [1, 1], scope='Conv2d 8a 1x1') 
with tf.variable_scope('Branch_1'): 
branch_1 = slim.conv2d(net, 160, [1, 1], scope='Conv2d_@a_1x1') 
branch_1 = slim.conv2d(branch_1, 160, [1, 7], 
scope='Conv2d_@b_1x7') 
branch_1 = slim.conv2d(branch_1, 192, [7, 1], 


scope='Conv2d_@c_7x1') 
with tf.variable_scope('Branch_2'): 
branch_2 = slim.conv2d(net, 160, [1, 1], scope='Conv2d_@a_1x1') 
branch_2 = slim.conv2d(branch_2, 160, [7, 1], 
scope='Conv2d_@b_7x1') 
branch_2 = slim.conv2d(branch_2, 160, [1, 7], 
scope='Conv2d_@c_1x7') 
branch_2 = slim.conv2d(branch_2, 160, [7, 1], 
scope='Conv2d_@d_7x1') 
branch_2 = slim.conv2d(branch_2, 192, [1, 7], 
scope='Conv2d_@e_1x7') 
with tf.variable_scope(‘Branch_3'): 
branch_3 = slim.avg_pool2d(net, [3, 3], scope='AvgPool_ @a_3x3') 
branch_3 = slim.conv2d(branch_3, 192, [1, 1], 
scope='Conv2d_@b_1x1') 
net = tf.concat([branch_@, branch_1, branch_2, branch_3], 3) 


Mixed_6e 也 和 前 面 两 个 Inception Module 完 全 一 致 。 这 是 第 2 个 
Inception 模块 组 的 最 后 一 个 Inception Module。 我 们 将 Mixed_6e 存 储 于 
end_points 中 ， 作 为 Auxiliary Classifier 辅 助 模型 的 分 类 。 


with tf.variable_scope('Mixed_6e'): 
with tf.variable_scope('Branch_@'): 
branch_@ = slim.conv2d(net, 192, [1, 1], scope='Conv2d_@a_1x1') 
with tf.variable_scope('Branch_1'): 
branch_1 = slim.conv2d(net, 192, [1, 1], scope='Conv2d_@a 1x1') 
branch_1 = slim.conv2d(branch_1, 192, [1, 7], 
scope='Conv2d_@b_1x7') 
branch_1 = slim.conv2d(branch_1, 192, [7, 1], 
scope='Conv2d_ @c_7x1') 
with tf.variable_scope('Branch_2'): 
branch_2 = slim.conv2d(net, 192, [1, 1], scope='Conv2d_@a_1x1') 
branch_2 = slim.conv2d(branch_2, 192, [7, 1], 
scope='Conv2d_@b_7x1') 


branch_2 = slim.conv2d(branch 2, 192, [1, 7], 
scope='Conv2d_@c_1x7') 

branch_2 = slim.conv2d(branch_2, 192, [7, 1], 
scope='Conv2d_@d_7x1') 

branch_2 = slim.conv2d(branch_2, 192, [1, 7], 
scope='Conv2d_@e_1x7') 

with tf.variable_ scope('Branch_3'): 
branch_3 = slim.avg pool2d(net, [3, 3], scope='AvgPool_ @a_3x3') 


branch_3 


slim.conv2d(branch_3, 192, [1, 1], 
scope='Conv2d_@b_1x1') 
net = tf.concat([branch_@, branch_1, branch_2, branch_3], 3) 


end_points[ ‘Mixed 6e'] = net 


第 3 个 Inception 模 块 组 包含 了 3 个 Inception Module, HARMS 
Inception Module 的 结构 非常 类 似 ， 它 们 的 结构 如 图 6-13 中 第 三 幅 图 所 
示 。 其 中 第 1 个 Inception Module 的 名 称 为 Mixed_7a， 包 含 了 3 个 分 支 。 第 1 
个 分 支 是 192 输 出 通道 的 1x1 卷 积 ， 再 接 320 输 出 通道 数 的 3x3 卷 积 ， 不 过 
步 长 为 2，padding 模 式 为 VALID， 因 此 图 片 尺 十 缩小 为 8x8， 第 2 个 分 支 有 
4 个 卷 积 层 ， 分 别 是 192 输 出 通道 的 1x1 卷 积 、192 输 出 通道 的 1x7 卷 积 、 
192 输 出 通道 的 7x1 卷 积 ， 以 及 192 输 出 通道 的 3x3 卷 积 。 注 意 最 后 一 个 卷 


积 层 同样 步 长 为 2， padding 为 VALID， 因 此 最 后 输出 的 tensor 尺 寸 为 
8x8x192; 第 3 个 分 支 则 是 一 个 3x3 的 最 大 池 化 层 ， 步 长 为 2，padding 为 
VALID ， 而 池 化 层 不 会 对 输出 通道 产生 改变 ， 因 此 这 个 分 支 的 输出 尺寸 
为 8x8x768。 最 后 ， 我 们 将 3 个 分 支 在 输出 通 道上 合并 ， 输出 tensor 尺 寸 为 
8x8x(320+192+768)=8x8x1280。 从 这 个 Inception Module 开 始 ， 输 出 的 图 
片 尺 十 又 被 缩小 了 ， 同 时 通道 数 也 增加 了 ，tensor 的 总 Size 在 持续 下 降 
中 。 


with tf.variable scope('Mixed 7a ' ) : 
with tf.variable_scope('Branch_@'): 
branch 6 = slim.conv2d(net, 192, [1, 1], scope='Conv2d 8a 1x1') 
branch_@ = slim.conv2d(branch_@, 320, [3, 3], stride=2, 
padding='VALID', scope='Conv2d_1a_3x3') 
with tf.variable_ scope('Branch_1'): 
branch_1 = slim.conv2d(net, 192, [1, 1], scope='Conv2d_ @a_1x1') 
branch_1 = slim.conv2d(branch_1, 192, [1, 7], 
scope='Conv2d_@b_1x7') 


branch_1 = slim.conv2d(branch_1, 192, [7, 1], 
scope='Conv2d_@c_7x1') 
branch_1 = slim.conv2d(branch_1, 192, [3, 3], stride=2, 
padding='VALID', scope='Conv2d_1a_3x3') 
with tf.variable_ scope('Branch_2'): 
branch_2 = slim.max_pool2d(net, [3, 3], stride=2, padding='VALID', 
scope='MaxPool 1a 3x3") 


net = tf.concat([branch_@, branch_1, branch 2], 3) 


接 下 来 是 第 3 个 Inception 模 块 组 的 第 2 个 Inception Module， 它 有 4 个 分 
支 。 第 1 个 分 支 是 一 个 简单 的 320 输 出 通道 的 1x1 卷 积 ; 第 2 个 分 支 先 是 1 个 
384 输 出 通道 的 1x1 卷 积 ， 随 后 在 分 支 内 开 了 两 个 分 支 ， 这 两 个 分 支 分 别 
是 384 输 出 通道 的 1x3 卷 积 和 384 输 出 通道 的 3x1 卷 积 ， 然 后 使 用 tf.concat 合 
并 两 个 分 支 ， 得 到 的 输出 tensor 尺 寸 为 8x8x(384+384)=8x8x768; 第 3 个 分 
支 更 复杂 ， 先 是 448 输 出 通道 的 1x1 卷 积 ， 然 后 是 384 输 出 通道 的 3x3 卷 
积 ， 然 后 同样 在 分 支 内 拆 成 两 个 分 支 ， 分 别 是 384 输 出 通道 的 1x3 卷 积 和 
384 输 出 通道 的 3x1 卷 积 ， 最 后 合并 得 到 8x8x768 的 输出 tensor; 第 4 个 分 支 


是 在 一 个 3x3 的 平均 池 化 层 后 接 一 个 192 输 出 通道 的 1x1 卷 积 。 最 后 ， 将 这 
个 非常 复杂 的 Inception Module 的 4 个 分 支 合 并 在 一 起 ， 得 到 的 输出 tensor 
尺寸 为 8x8x(320+768+768+192)=8x8x2048。 到 这 个 Inception Module, ， 输 
出 通道 数 从 1280 增 加 到 了 2048。 


with tf.variable scope('Mixed 7b'): 
with tf.variable scope('Branch_@'): 
branch_@ = slim.conv2d(net, 320, [1, 1], scope='Conv2d_@a_1x1') 
with tf.variable scope('Branch_1'): 
branch_1 = slim.conv2d(net, 384, [1, 1], scope='Conv2d_@a_1x1') 
branch_1 = tf.concat([ 
slim.conv2d(branch_1, 384, [1, 3], scope='Conv2d_@b_1x3'), 
slim.conv2d(branch_1, 384, [3, 1], scope='Conv2d_@b_3x1')], 3) 
with tf.variable_scope('Branch_2'): 
branch_2 = slim.conv2d(net, 448, [1, 1], scope='Conv2d_@a_ 1x1') 
branch_2 = slim.conv2d(branch_ 2, 384, [3, 3], 
scope='Conv2d_@b_3x3') 
branch_2 = tf.concat([ 


slim.conv2d(branch_2, 384, [1, 3], scope='Conv2d_@c_1x3'), 
slim.conv2d(branch_2, 384, [3, 1], scope='Conv2d @d_3x1')], 3) 
with tf.variable_scope('Branch_3'): 
branch_3 = slim.avg pool2d(net, [3, 3], scope='AvgPool @a_3x3') 
branch_3 = slim.conv2d(branch_3, 192, [1, 1], 
scope='Conv2d_@b_1x1") 
net = tf.concat([branch_@, branch_1, branch_2, branch_3], 3) 


Mixed_7c 是 第 3 个 Inception 模 块 组 的 最 后 一 个 Inception Module, P$ 
它 和 前 面 的 Mixed_7b 是 完全 一 致 的 ， 输 出 tensor 也 是 8x8x2048。 最 后 ， 我 
们 返回 这 个 Inception Module 的 结果 ， 作 为 inceptio_v3_base 国 数 的 最 终 输 
出 。 


with tf.variable scope('Mixed_7c'): 
with tf.variable_scope('Branch_Q'): 
branch_@ = slim.conv2d(net, 320, [1, 1], scope='Conv2d_@a_1x1') 
with tf.variable_scope('Branch_1'): 
branch_1 = slim.conv2d(net, 384, [1, 1], scope='Conv2d_@a_1x1') 
branch_1 = tf.concat([ 
slim.conv2d(branch_1, 384, [1, 3], scope='Conv2d_@b_1x3'), 
slim.conv2d(branch_1, 384, [3, 1], scope='Conv2d_@c_3x1')], 3) 
with tf.variable_scope('Branch_2'): 
branch_2 = slim.conv2d(net, 448, [1, 1], scope='Conv2d_@a_1x1') 
branch_2 = slim.conv2d(branch_2, 384, [3, 3], 
scope='Conv2d_@b_3x3') 
branch_2 = tf.concat([ 
slim.conv2d(branch_2, 384, [1, 3], scope='Conv2d_@c_1x3'), 
slim.conv2d(branch_2, 384, [3, 1], scope='Conv2d_@d_3x1"')], 3) 
with tf.variable_scope('Branch_3'): 
branch 3 = slim.avg_pool2d(net, [3, 3], scope='AvgPool @a_3x3') 
branch_3 = slim.conv2d(branch_3, 192, [1, 1], 
scope='Conv2d_@b_1x1') 
net = tf.concat([branch_@, branch_1, branch_2, branch_3], 3) 


return net, end_points 


2 itt, Inception V3 网 络 的 核心 部 分 ， 即 卷 积 层 部 分 就 完成 了 。 回 忆 
一 下 Inception V3 的 网 络 结构 : 首先 是 5 个 卷 积 层 和 2 个 池 化 层 交 替 的 普通 
结构 ， 然 后 是 3 个 mception 模 块 组 ， 每 个 模块 组 内 包含 多 个 结构 类 似 的 
Inception Module。 设 计 Inception Net 的 一 个 重要 原则 是 ， 图 片 尺 寸 是 不 断 
缩小 的 ， 从 299x299 通 过 5 个 步 长 为 2 的 卷 积 层 或 闻 化 层 后 ， 缩 小 为 8x8; 
同时 ， 输 出 通道 数 持续 增加 ， 从 一 开始 的 3 (RGB 三 色 ) 到 2048。 从 这 里 
可 以 看 出 ， 每 一 层 卷 积 、 池 化 或 Inception 模 块 组 的 目的 都 是 将 空间 结构 简 
化 ， 同 时 将 空间 信息 转化 为 高 阶 抽象 的 特征 信息 ， 即 将 空间 的 维度 转 为 
通道 的 维度 。 这 一 过 程 同时 也 使 每 层 输 出 tensor 的 总 size 持 续 下 降 ， 降 低 
了 计算 量 。 读 者 可 能 也 发 现 了 Inception Module 的 规律 ， 一 般 情 况 下 有 4 个 
分 支 ， 第 1 个 分 支 一 般 是 1x1 卷 积 ， 第 2 个 分 支 一 般 是 1x1 卷 积 再 接 分 解 后 
(factorized) 的 1xn 和 nx1 卷 积 ， 第 3 个 分 支 和 第 2 个 分 支 类 似 ， 但 是 一 般 


更 深 一 些 ， 第 4 个 分 支 一 般 具 有 最 大 池 化 或 平均 池 化 。 因 此 ，Inception 
Module 是 通过 组 合 比较 简单 的 特征 抽象 (20321) 、 比 较 复 杂 的 特征 抽象 

(分 支 2 和 分 支 3) 和 一 个 简化 结构 的 池 化 层 (分 支 4) ， 一 共 4 种 不 同 程 
度 的 特征 抽象 和 变换 来 有 选择 地 保留 不 同 层次 的 高 阶 特征 ， 这 样 可 以 最 
大 程度 地 丰富 网 络 的 表达 能 力 。 

接 下 来 ， 我 们 来 实现 Inception V3 网 络 的 最 后 一 部 分 一 一 全 局 平均 池 

化 、Softmax 和 Auxiliary Logits 。 先 看 函数 inception v3 的 输入 参数 ， 
num_classes 即 最 后 需要 分 类 的 数量 ， 这 里 默认 的 1000 是 ILSVRC 上 比赛 数据 
集 的 种 类 数 ; is_training 标 志 是 否 是 训练 过 程 ， 对 Batch Normalization 和 
Dropout 有 影响 ， 只 有 在 训练 时 Batch Normalization 和 Dropout 才 会 被 启 
用 ; dropout_keep_prob 即 训练 时 Dropout 所 需 保 留 节点 的 比例 ， 默 认为 
0.8; prediction fn 是 最 后 用 来 进行 分 类 的 图 数 ， 这 里 默认 是 使 用 
slim.softmax; spatial _squeeze 人 参数 标志 是 否 对 输出 进行 squeeze 操 作 (BPA 
除 维 数 为 1 的 维度 ， 比 如 5x3x1 转 为 5x3) ; reuse 标 志 是 否 会 对 网 络 和 
Variable 进 行 重复 使 用 ; 最 后 ，scope 为 包含 了 函数 默认 参数 的 环境 。 首 
先 ， 使 用 tf.variable_scope 定 义 网 络 的 name 和 reuse 等 参数 的 默认 值 ， 然 后 
使 用 slim.arg_scope 定 义 Batch Normalization 和 Dropout 的 is_training 标 志 的 
默认 值 。 最 后 ， 使 用 前 面 定 义 好 的 inception_v3_base 构 筑 整 个 网 络 的 卷 积 
部 分 ， 拿 到 最 后 一 层 的 输出 net 和 重要 节点 的 字典 表 end_points。 


def inception_v3(inputs, 
num_classes=1000, 
is_training=True, 
dropout_keep_prob=0@.8, 
prediction_fn=slim.softmax, 


spatial_squeeze=True, 


reuse=None, 


scope='Inceptionv3'): 


with tf.variable scope(scope, ‘InceptionV3', [inputs, num_ classes], 
reuse=reuse) as scope: 
with slim.arg_ scope([slim.batch_norm, slim.dropout], 
is_training=is_ training): 


net, end_points = inception _v3_base(inputs, scope=scope) 


接 下 来 处 理 Auxiliary Logits 这 部 分 的 逻辑 ，Auxiliary Logits 作 为 辅助 
分 类 的 节点 ， 对 分 类 结果 预测 有 很 大 帮助 。 先 使 用 slim.arg_scope 将 卷 
积 、 最 大 池 人 化、 平均 池 化 的 默认 步 长 设 为 1， 默 认 padding 模 式 设 为 
SAME。 然 后 通过 end_points 取 到 Mixed_6e， 并 在 Mixed_6e 之 后 再 接 一 个 
5x5 的 平均 池 化 ， 步 长 为 ?3，padding 设 为 VALID ， 这 样 输出 的 尺寸 就 从 
17x17x768 变 为 5x5x768。 接 着 连接 一 个 128 输 出 通道 的 1x1 卷 积 和 一 个 768 
输出 通道 的 5x5 卷 积 ， 这 里 权重 初始 化 方式 重 设 为 标准 差 为 0.01 的 正 态 分 
布 ，padding 模 式 设 为 VALID ， 输 出 尺寸 变 为 1x1x768。 然 后 再 连接 一 个 输 
出 通道 数 为 num_classes 的 1x1 卷 积 ， 不 设 激 活 孙 数 和 规范 化 函数 ， 权 重 初 
始 化 方式 重 设 为 标准 差 为 0.001 的 正 态 分 布 ， 这 样 输出 变 为 了 1x1x1000。 
接 下 来 ， 使 用 tt.squeeze 函 数 消除 输出 tensor 中 前 两 个 为 1 的 维度 。 最 后 将 
辅助 分 类 节点 的 输出 aux_logits 储 存 到 字典 表 end_points 中 。 


with slim.arg scope([slim.conv2d, slim.max_pool2d, slim.avg pool2d], 
stride=1, padding='SAME'): 
aux_logits = end points['Mixed 6e'] 
with tf.variable scope('AuxLogits'): 
aux_logits = slim.avg_pool2d( 
aux_logits, [5, 5], stride=3, padding='VALID', 
scope='AvgPool_1a_5x5') 
aux_logits = slim.conv2d(aux_logits, 128, [1, 1], 
scope='Conv2d_1b_1x1') 


aux_logits = slim.conv2d( 
aux_logits, 768, [5,5], 
weights_initializer=trunc_normal(@.@1), 


padding='VALID', scope='Conv2d_2a_5x5') 


aux_logits = slim.conv2d( 
aux_logits, num_classes, [1, 1], activation_fn=None, 
normalizer_fn=None, weights_initializer=trunc_normal(@.0@1), 
scope='Conv2d_ 2b 1x1") 
if spatial_squeeze: 
aux_logits = tf.squeeze(aux_logits, [1, 2], 
name='SpatialSqueeze' ) 


end_points[ 'AuxLogits'] = aux_logits 


下 面 处 理 正常 的 分 类 预测 的 逻辑 。 我 们 直接 对 Mixed_7e 即 最 后 一 个 
卷 积 层 的 输出 进行 一 个 8x8 全 局 平均 池 化 ，padding 模 式 为 VALID ， 这 样 输 
出 tensor 的 尺寸 就 变 为 了 1x1x2048。 然 后 连接 一 个 Dropout 层 ， 节 点 保留 
率 为 dropout_keep_prob。 接 着 连接 一 个 输出 通道 数 为 1000 的 1x1 卷 积 ， 激 
活 图 数 和 规范 化 图 数 设 为 空 。 下 面 使 用 tt.squeeze 去 除 输出 tensor 中 维 数 为 
1 的 维度 ， 再 连接 一 个 Softmax 对 结果 进行 分 类 预测 。 最 后 返回 输出 结 
logits 和 包含 辅助 节点 的 end_ponits。 


with tf.variable scope('Logits'): 
net = slim.avg pool2d(net, [8, 8], padding='VALID', 
scope='AvgPool_1a_8x8') 
net = slim.dropout(net, keep _prob=dropout_keep_ prob, 
scope='Dropout_1b' ) 
end_points['PreLogits'] = net 
logits = slim.conv2d(net, num_classes, [1, 1], activation_ fn=None, 
normalizer_fn=None, scope='Conv2d_1c_1x1') 
if spatial_squeeze: 
logits = tf.squeeze(logits, [1, 2], name='SpatialSqueeze' ) 
end_points['Logits'] = logits 
end_points['Predictions'] = prediction_fn(logits, scope='Predictions' ) 


return logits, end_points 


至 此 ， 整 个 Inception V3 网 络 的 构建 就 完成 了 。Inception V3 是 一 个 非 
常 复杂 、 精 妙 的 模型 ， 其 中 用 到 了 非常 多 之 前 积累 下 来 的 设计 大 型 卷 积 
网 络 的 经 验 和 技巧 。 不 过 ， 虽 然 Inception V3 论文 中 给 出 了 设计 卷 积 网 络 
的 几 个 原则 ， 但 是 其 中 很 多 超 参 数 的 选择 ， 包 括 层 数 、 卷 积 核 的 尺寸 、 
池 化 的 位 置 、 步 长 的 大 小 、factorization 使 用 的 时 机 ， 以 及 分 支 的 设计 ， 
都 很 难 一 一 解释 。 目 前 ， 我 们 只 能 认为 深度 学 习 ， 尤 其 是 大 型 卷 积 网 络 
的 设计 ， 是 一 门 实验 学 科 ， 其 中 需要 大 量 的 探索 和 实践 。 我 们 很 难 证 明 
某 种 网 络 结构 一 定 更 好 ， 更 多 的 是 通过 实验 积累 下 来 的 经 验 总 结 出 一 些 
结论 。 深 度 学 习 的 研究 中 ， 理 论证 明 部 分 依然 是 短 板 ， 但 通过 实验 得 到 
的 结论 通常 也 具有 不 错 的 推广 性 ， 在 其 他 数据 集 上 泛 化 性 良好 。 


下 面 对 Inception V3 进 行 运 算 性 能 测试 。 这 里 使 用 的 
time_tensorflow_run 国 数 和 AlexNet 那 节 一 样 ， 因 此 就 不 再 重复 定义 ， 读 者 
可 以 在 6.1 节 中 找到 代码 并 加 载 。 因 为 Inception V3 网 络 结构 较 大 ， 所 以 依 
然 令 batch_size 为 32， 以 免 GPU 显 存 不 够 。 图 片 尺寸 设置 为 299x299， 并 用 
tf.random_uniform 生成 随机 图 片 数据 作为 input。 接 着 ， 我 们 使 用 
slim.arg_scope 加 载 前 面 定 义 好 的 inception_v3_arg_scope()， 在 这 个 scope 中 
包含 了 Batch Normalization 的 默认 参数 ， 以 及 激活 函数 和 参数 初始 化 方式 
的 默认 值 。 然 后 在 这 个 arg_scope 下 ， 调 用 inception_v3 国 数 ， 并 传 入 
inputs ， 获 取 logits 和 end_points。 下 面 创建 Session 并 初始 化 全 部 模型 参 


数 。 最 后 我 们 设置 测试 的 batch 数 量 为 100， 并 使 用 time_tensorflow_run 测 
试 Inception V3 网 络 的 forward 性 能 。 


batch size = 32 

height, width = 299，299 

inputs = tf.random uniform((batch size, height, width, 3)) 
with slim.arg scope(inception_v3_arg_ scope()): 


logits, end_points = inception_v3(inputs, is_training=False) 


init = tf.global variables initializer() 
sess = tf.Session() 

sess.run(init) 

num_batches=10@ 


time_tensorflow_run(sess, logits, "Forward") 


从 结果 来 看 ，Inception V3 网 络 的 forward 性 能 不 错 ， 在 GTX 1080, 
CUDA 8, cuDNN 5.1 的 环境 下 ， 每 个 batch (包含 32 张 图 片 ) 预测 耗 时 仅 
为 0.145s。 虽 然 输 入 图 片 的 面积 比 VGGNet 的 224x224 大 了 78% ， 但 是 
forward 速 度 却 比 VGGNet 的 0.152s 更 快 。 这 主要 归功 于 其 较 小 的 参数 量 ， 
meen V3 网 络 仅 有 2500 万 个 参数 ， 虽 然 比 Inception V1 的 700 万 多 了 很 
多 ， 不 过 仍然 不 到 AlexNet 的 6000 万 参数 量 的 一 半 ， 相 比 VGGNet 的 1.4 亿 
SAE ASS 了 这 对 一 个 42 层 深 的 大 型 网 络 来 说 是 极为 不 易 的 。 同 
时 ， 整个 网 络 的 浮 HA 点 计算 量 仅 为 50 亿 次 ， 虽 也 比 IPncepion V1 的 15 亿 次 大 
了 不 少 ， 但 是 相 比 VGGNet 仍 然 不 算 大 。 较 小 的 计算 量 让 Inception V3 网 络 
变 得 非常 实用 ， 我 们 可 以 轻松 地 将 其 移植 到 普通 服务 器 上 提供 快 速 响应 
的 服务 ， 甚 至 是 移植 到 手机 上 进行 实时 的 图 像 识 别 。 


2016-12-10 21:07:09.535980: step @, duration = @.145 


2016-12-10 21:07:10.982748: step 10, duration = @.145 
2016-12-10 21:07:12.430209: step 20, duration = 0.145 
2016-12-10 21:07:13.877055: step 30, duration = @.145 
2016-12-10 21:07:15.324095: step 40, duration = 0.145 
2016-12-10 21:07:16.770960: step 50, duration = 0.145 
2016-12-10 21:07:18.218127: step 60, duration = @.145 
2016-12-10 21:07:19.665192: step 70, duration = 0.145 
2016-12-10 21:07:21.113429: step 80, duration = 0.145 


2016-12-10 21:07:22.563213: step 90, duration = 0.145 
2016-12-10 21:07:23.867730: Forward across 100 steps, 0.145 +/- 0.000 sec / 
batch 


为 篇 幅 原 因 ， 我 们 就 不 对 Inception V3 的 backward 性 能 进行 测试 
了 ， 这 部 分 的 代码 比较 元 长 。 感 兴趣 的 读者 ， 可 以 将 整个 网 络 的 所 有 人参 
数 加 入 参数 列表 ， 测 试 对 全 部 参数 求 导 所 需 的 时 间 ， 或 者 直接 下 载 
ImageNet 数 据 集 ， 使 用 真实 样本 进行 训练 并 评测 所 需 时 间 。 

Inception V3 作为 一 个 极 深 的 卷 积 神经 网 络 ， 拥 有 非常 精妙 的 设计 和 
构造 ， 整 个 网 络 的 结构 和 分 支 非常 复杂 。 我 们 平时 可 能 不 必 设 计 这 么 复 
杂 的 网 络 ， 但 Inception V3 中 仍 有 许多 设计 CNN 的 思想 和 Trick 值 得 借鉴 。 

(1) Factorization into small convolutions 很 有 效 ， 可 以 降低 参数 量 、 
减轻 过 拟 合 ， 增 加 网 络 非 线性 的 表达 能 力 。 

(2) 卷 积 网 络 从 输入 到 输出 ， 应 该 让 图 片 尺 寸 逐 渐 减 小 ， 输 出 通道 
数 逐 渐 增 加 ， 即 让 空间 结构 简化 ， 将 空间 信息 转化 为 高 阶 抽象 的 特征 信 
息 。 

(3) Inception Module 用 多 个 分 支 提 取 不 同 抽象 程度 的 高 阶 特征 的 思 
路 很 有 效 ， 可 以 丰富 网 络 的 表达 能 力 。 


6.4 ”TensorFlow 实 现 ResNet 


ResNet (Residual Neural Network) 由 微软 研究 院 的 Kaiming He 等 4 名 
华人 提出 ， 通 过 使 用 Residual Unit 成 功 训 练 152 层 深 的 神经 网 络 ， 在 


ILSVRC 2015 比 赛 中 获得 了 冠军 ， 取 得 3.57% 的 top-5 销 误 率 ， 同 时 参数 量 
却 比 VGGNet 低 ， 效 果 非 常 突出 。ResNet 的 结构 可 以 极 快 地 加 速 超 深 神经 
网 络 的 训练 ， 模 型 的 准确 率 也 有 非常 大 的 提升 。6.3 节 我 们 讲解 并 实现 了 
Inception V3， 而 Inception V4 则 是 将 Inception Module 和 ResNet 相 结合 。 可 
以 看 到 ResNet 是 一 个 推广 性 非常 好 的 网 络 结构 ， 甚 至 可 以 直接 应 用 到 
Inception Net 中 。 本 节 就 讲解 ResNet 的 基本 原理 ， 以 及 如 何 用 TensorFlow 
来 实现 它 。 

在 ResNet 之 前 ， 瑞 士 教授 Schmidhuber 提 出 了 Highway Network, [RIE 
与 ResNet 很 相似 。 这 位 Schmidhuber 教 授 同 时 也 是 LSTM 网 络 的 发 明 者 ， 
而 且 是 早 在 1997 年 发 明 的 ， 可 谓 是 神经 网 络 领域 元 老 级 的 学 者 。 通 常 认 
为 神经 网 络 的 深度 对 其 性 能 非常 重要 ， 但 是 网 络 越 深 其 训练 难度 越 大 ， 
Highway Network 的 目标 就 是 解决 极 深 的 神经 网 络 难 以 训练 的 问题 。 
Highway Network 相 当 于 修改 了 每 一 层 的 激活 图 数 ， 此 前 的 激活 图 数 只 是 
对 输入 做 一 个 非 线性 变换 y =H (x ,W, )，Highway NetWork 则 人 允许 保留 一 
定 比 例 的 原始 输入 x ， 即 y =H (x,W,,)-T (x ,Wi )+x:C (x ,W。 )， 其 中 T 为 变 
换 系 数 ，C 为 保留 系数 ， 论 文中 令 C=1- T。 这 样 前 面 一 层 的 信息 ， 有 一 定 
比例 可 以 不 经 过 和 矩 阵 乘 法 和 非 线 性 变换 ， 直 接 传输 到 下 一 层 ， 仿 佛 一 条 
信息 高 速 公 路 ， 因 此 得 名 Highway Network。 Highway Network 主 要 通过 
gating units 学 习 如 何 控制 网 络 中 的 信息 流 ， 即 学 习 原 始 信 息 应 保留 的 比 
例 。 这 个 可 学 习 的 gating 机 制 ， 正 是 借鉴 自 Schmidhuber 教 授 早 年 的 LSTM 
循环 神经 网 络 中 的 gating。 几 百 力 至 上 千 层 深 的 Highway Network 可 以 直 
接 使 用 梯度 下 降 算法 训练 ， 并 可 以 配合 多 种 非 线 性 激活 遂 数 ， 学 习 极 深 
的 神经 网 络 现在 变 得 可 行 了 。 事 实 上 ，Highway Network 的 设计 在 理论 上 
允许 其 训练 任意 深 的 网 络 ， 其 优化 方法 基本 上 与 网 络 的 深度 独立 ， 而 传 
统 的 神经 网 络 结构 则 对 深度 非常 敏感 ， 训 练 复杂 度 随 深 度 增 加 而 急剧 增 
加 。 


ResNet 和 HighWay Network 非 常 类 似 ， 也 是 允许 原始 输入 信息 直接 传 
输 到 后 面 的 层 中 。ResNet 最 初 的 灵感 出 自 这 个 问题 : 在 不 断 加 神经 网 络 
的 深度 时 ， 会 出 现 一 个 Degradation 的 问题 ， 即 准确 率 会 先 上 升 然 后 达到 
饱和 ， 再 持续 增加 深度 则 会 导致 准确 率 下 降 。 这 并 不 是 过 拟 合 的 问题 ， 
因为 不 光 在 测试 集 上 误差 增 大 ， 训 练 集 本 身 误差 也 会 增 大 。 假 设 有 一 个 
比较 浅 的 网 络 达到 了 饱和 的 准确 率 ， 那 么 后 面 再 加 上 几 个 y =x 的 全 等 映 
射 层 ， 起 码 误差 不 会 增加 ， 即 更 深 的 网 络 不 应 该 带 来 训练 集 上 误差 上 
升 。 而 这 里 提 到 的 使 用 全 等 映射 直接 将 前 一 层 输 出 传 到 后 面 的 思想 ， 就 


是 ResNet 的 灵感 来 源 。 假 定 某 段 神经 网 络 的 输入 是 x ， 期 望 输出 是 H (x 
)， 如 果 我 们 直接 把 输入 x 传 到 输出 作为 初始 结果 ， 那 么 此 时 我 们 需要 学 
习 的 目标 就 是 F (x )=H (x )-x 。 如 图 6-14 所 示 ， 这 就 是 一 个 ResNet 的 残 差 
学 习 单元 (Residual Unit) ，ResNet 相 当 于 将 学 习 目 标 改变 了 ， 不 再 是 学 
习 一 个 完整 的 输出 (x )， 只 是 输出 和 输入 的 差别 (x )-x ， 即 残 差 。 


weight layer 


x 
identity 


图 6-14 ”ResNet 的 残 差 学 习 模 块 


图 6-15 所 示 为 YGGNet-19， 以 及 一 个 34 层 深 的 普通 卷 积 网 络 ， 和 34 层 
深 的 ResNet 网 络 的 对 比 图 。 可 以 看 到 普通 直 连 的 卷 积 神经 网 络 和 ResNet 
的 最 大 区 别 在 于 ，ResNet 有 很 多 旁 路 的 支线 将 输入 直接 连 到 后 面 的 层 ， 
使 得 后 面 的 层 可 以 直接 学 习 残 差 ， 这 种 结构 也 被 称 为 shortcut 或 skip 


connectionso 


传统 的 卷 积 层 或 全 连接 层 在 信息 传递 时 ， 或 多 或 少 会 存在 信息 丢 
失 、 损 耗 等 问题 。ResNet 在 某 种 程度 上 解决 了 这 个 问题 ， 通 过 直接 将 输 
入 信息 绕道 传 到 输出 ， 保 护 信 息 的 完整 性 ， 整 个 网 络 则 只 需要 学 习 输 
入 、 输 出 差别 的 那 一 部 分 ， 简 化 学 习 目 标 和 难度 。 


在 ResNet 的 论文 中 ， 除 了 提出 图 6-16 中 的 两 层 残 差 学 习 单 元 ， 还 有 三 
层 的 残 差 学 习 单 元 。 两 层 的 残 差 学 习 单 元 中 包含 两 个 相同 输出 通道 数 
(因为 残 差 等 于 目标 输出 减 去 输入 ， 即 五 (x )-x ， 因 此 输入 、 输 出 维度 需 
保持 一 致 ) 的 3x3 卷 积 ; 而 3 层 的 残 差 网 络 则 使 用 了 Network In Network 和 
Inception Net 中 的 1x1 卷 积 ， 并 且 是 在 中 间 3x3 的 卷 积 前 后 都 使 用 了 1x1 卷 
积 ， 有 先 降 维 再 升 维 的 操作 。 另 外 ， 如 果 有 输入 、 输 出 维度 不 同 的 情 
况 ， 我 们 可 以 对 x 做 一 个 线性 映射 变换 维度 ， 再 连接 到 后 面 的 层 。 


图 6-17 所 示 为 ResNet 在 不 同 层 数 时 的 网 络 配置 ， 其 中 基础 结构 很 类 
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图 6-15 VGG-19， 直 连 的 34 层 网 络 ， ResNet 的 34 层 网 络 的 结构 对 比 
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图 6-16 ”两 层 及 三 层 的 ResNet 残 差 学 习 模 块 


layer name | output size 18-layer 34-layer 50-layer 101-layer 152-layer 
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图 6-17 ”ResNet 不 同 层 数 时 的 网 络 配置 


在 使 用 了 ResNet 的 结构 后 ， 可 以 发 现 层 数 不 断 加 深 导 致 的 训练 集 上 
误差 增 大 的 现象 被 消除 了 ，ResNet 网 络 的 训练 误差 会 随 着 层 数 增 大 而 逐 
渐 减 小 ， 并 且 在 测试 集 上 的 表现 也 会 变 好 。 在 ResNet 推 出 后 不 久 ， 
Google 就 借鉴 了 ResNet 的 精髓 ， 提 出 了 Inception V4 和 Inception-ResNet- 
V2， 并 通过 融合 这 两 个 模型 ， 在 ILSVRC 数 据 集 上 取得 了 惊人 的 3.08% 的 
错误 率 。 可 见 ，ResNet 及 其 思想 对 卷 积 神经 网 络 研究 的 贡献 确实 非常 显 
车， 具有 很 强 的 推广 性 。 在 ResNet 的 作者 的 第 二 篇 相关 论文 1dentity 
Mappings in Deep Residual Networks 中 ，ResNet V2 被 提出 。ResNet V2 和 
ResNet V1 的 主要 区 别 在 于 ， 作 者 通过 研究 ResNet 残 差 学 习 单 元 的 传播 公 
式 ， 发 现 前 馈 和 反馈 信号 可 以 直接 传输 ， 因 此 skip connection 的 非 线性 激 
活 了 图 数 (如 ReLU) 替换 为 dentity Mappings (y=x) 。 同 时 ，ResNet V2 
在 每 一 层 中 都 使 用 了 Batch Normalization。 这 样 处 理 之 后 ， 新 的 残 差 学 习 
单元 将 比 以 前 更 容易 训练 且 泛 化 性 更 强 。 


根据 Schmidhuber 教 授 的 观点 ，ResNet 类 似 于 一 个 没有 gates 的 LSTM 
网 络 ， 即 将 输入 x 传递 到 后 面 层 的 过 程 是 一 直 发 生 的 ， 而 不 是 学 习 出 来 
的 。 同 时 ， 最 近 也 有 两 篇 论文 表示 ，ResNet 基 本 等 价 于 RNN 且 ResNet 的 
效果 类 似 于 在 多 层 网 络 间 的 集成 方法 (ensemble) 。ResNet 在 加 深 网 络 层 
数 上 做 出 了 重大 贡献 ， 而 另 一 篇 论文 The Power of Depth for Feedforward 
Neural Networks 则 从 理论 上 证 明了 加 深 网 络 比 加 宽 网 络 更 有 效 ， 算 是 给 
ResNet 提 供 了 声援 ， 也 是 给 深度 学 习 为 什么 要 深 才 有 效 提供 了 合理 解 
释 。 


下 面 我 们 就 用 TensorFlow 实 现 一 个 ResNet V2 网 络 。 我 们 依然 使 用 方 
便 的 contrib.slim 库 来 辅助 创建 ResNet ， 其 余 载 入 的 库 还 有 原生 的 
collections。 本 节 代 码 主要 来 自 TensorFlow 的 开源 实现 © 


import collections 
import tensorflow as tf 


slim = tf.contrib.slim 


我 们 使 用 collections.namedtuple 设 计 ResNet 基 本 Block 模 块 组 (图 6-17 
中 所 示 的 Block) 的 named tuple， 并 用 它 创建 Block 的 类 ， 但 只 包含 数据 结 
构 ， 不 包含 具体 方法 。 我 们 要 定义 一 个 典型 的 Block， 需 要 输入 三 个 参 
数 ， 分 别 是 scope、unit_fn 和 args。 以 Block('block1',bottleneck,[(256,64,1)] 
x 2 + [(256,64,2)]) 这 一 行 代码 为 例 ， 它 可 以 定义 一 个 典型 的 Block， 其 中 
block1 就 是 我 们 这 个 Block 的 名 称 (或 scope) ; bottleneck 是 ResNet V2 中 
的 残 差 学 习 单 元 ;而 最 后 一 个 参数 [(256,64,1)] x 2 + [(256,64,2)] 则 是 这 个 
Block 的 args，args 是 一 个 列表 ， 其 中 每 个 元 素 都 对 应 一 个 bottleneck 残 差 学 
习 单 元 ， 前 面 两 个 元 素 都 是 (256,64,1)， 最 后 一 个 是 (256,64,2)。 每 个 元 素 
都 是 一 个 三 元 tuple ， 即 ( depth,depth_bottleneck,stride ) o 比 如 

(256,64,3) ， 代 表 构 建 的 bottleneck 残 差 学 习 单 元 (每 个 残 差 学 习 单 元 包 
含 三 个 卷 积 层 ) 中 ， 第 三 层 输 出 通道 数 depth 为 256， 前 两 层 输 出 通道 数 
depth_bottleneck 为 64， 且 中 间 那 层 的 步 长 stride 为 3。 这 个 残 差 学 习 单 元 结 
构 即 为 [(1x1/s1,64),(3x3/s2,64),(1x1/s1,256)]。 而 在 这 个 Block 中 ， 一 共有 3 
个 bottleneck 残 差 学 习 单 元 ， 除 了 最 后 一 个 的 步 长 由 3 变 为 2， 其 余 都 一 
致 。 


class Block(collections.namedtuple('Block', ['scope', ‘unit_fn', ‘args'])): 


"A named tuple describing a ResNet block.' 


下 面 定 义 一 个 降 采 样 subsample 的 方法 ， 参 数 包 括 inputs (输入 ) 、 
factor (采样 因子 ) 和 scope。 这 个 遂 数 也 非常 简单 ， 如 果 factor 为 1， 则 不 
做 修改 直接 返回 inputs; 如 果 不 为 1， 则 使 用 slim.max_pool2d 最 大 池 化 来 
实现 ， 通 过 1x1 的 池 化 尺寸 ，stride 作 步 长 ， 即 可 实现 降 来 样 。 


def subsample(inputs, factor, scope=None): 
if factor == 
return inputs 
else: 


return slim.max_pool2d(inputs, [1, 1], stride=factor, scope=scope) 


再 定义 一 个 conv2d_same 国 数 创 建 卷 积 层 。 先 判断 stride 是 否 为 1， 如 
果 为 1， MA tete Fslim.conv2d#¥~ padding ATLI SAME, 如 果 stride 不 为 
1， 则 显 式 地 pad zero, Z pad zero 的 总 数 为 kernel _size-1 pad_beg 为 
pad//2，pad_end 为 余下 的 部 分 。 接 下 来 使 用 tf.pad 对 输入 变量 进行 补 零 操 
作 。 最 后 ， 因 为 已 经 进行 了 zero padding， 所 以 只 需 再 使 用 一 个 padding 模 
式 为 VALID 的 slim.conv2d 创 建 这 个 卷 积 层 。 


def conv2d_same(inputs, num_outputs, kernel_size, stride, scope=None): 
if stride == 
return slim.conv2d(inputs, num_outputs, kernel_size, stride=1, 
padding='SAME', scope=scope) 
else: 
pad_ total = kernel_size - 1 
pad_beg = pad _total // 2 
pad_end = pad_total - pad_beg 
inputs = tf.pad(inputs, [[@, Ə], [pad_beg, pad end], 
[pad _beg, pad_end], [@, 86]]) 
return slim.conv2d(inputs, num_outputs, kernel_size, stride=stride, 


padding='VALID', scope=scope) 


iz BIR XIESBlocksH KM, Shnet HMA, blocks ZB 
定义 的 Block 的 class 的 列表 ， 而 outputs_collections 则 是 用 来 收集 各 个 
end_points 的 collections。 下 面 使 用 两 层 循 环 ， 逐 个 Block， 逐 个 Residual 
Unit 地 堆 到 ， 先 使 用 两 个 ttvariable_scope 将 残 差 学 习 单 元 命名 为 
blocklunit 1 的 形式 。 在 第 2 层 循环 中 ， 我 们 拿 到 每 个 Block 中 每 个 
Residual Unit 的 args ， 并 展开 为 depth、depth_bottleneck 和 stride， 其 含义 在 
前 面 定 义 Blocks 类 时 已 经 讲解 过 。 然 后 使 用 unit_ fn 函数 (BURA SS Bsc 
的 生成 函数 ) 顺序 地 创建 并 连接 所 有 的 残 差 学 习 单 元 。 最 后 ， 我 们 使 用 


slim.utils.collect_named_outputs 豆 数 将 输出 net 添 加 到 collection 中 。 最 后 ， 


当 所 有 Block 中 的 所 有 Residual Unit 都 堆 埃 完 之 后 ， 我 们 再 返回 最 后 的 net 
作为 stack_blocks_dense 国 数 的 结果 。 


@slim.add_arg scope 


def stack_blocks dense(net, blocks, outputs _collections=None): 


for block in blocks: 
with tf.variable_scope(block.scope, ‘block', [net]) as sc: 
for i, unit in enumerate(block.args): 
with tf.variable_scope('unit_%d' % (i + 1), values=[net]): 
unit_depth, unit_depth_bottleneck, unit_stride = unit 


net = block.unit_fn(net, 
depth=unit_depth, 
depth_bottleneck=unit_depth_bottleneck, 
stride=unit_stride) 
net = slim.utils.collect_named_outputs(outputs_ collections, sc.name, 


net) 


return net 


这 里 创建 ResNet 通 用 的 arg_scope， 关 于 arg_scope， 我 们 在 前 面 的 章 
万 已 经 介绍 过 其 功能 一 一 用 来 定义 某 些 国 数 的 参数 默认 值 。 这 里 定义 训 
练 标 记 is_training 默 认为 True， 权 重 衰减 速率 weight_decay 默 认为 0.0001， 
BN 的 衰减 速率 默认 为 0.997，BN 的 epsilon 默 认为 le-5， | 
True。 和 在 Inception V3 定 义 arg_scope 一 样 ， 先 设置 好 BN 的 各 项 参数 ， 然 
后 通过 slim.arg_scope 将 slim.conv2d 的 几 个 默认 参数 设置 好 : 
设置 为 2 正则 ， 权 重 初始 化 器 设 为 slim.variance_scaling_initializer0) ， 激 活 
国 数 设 为 ReLU， 标 准 化 器 设 为 BN。 并 将 最 大 池 化 的 padding 模 式 默 认 设 
为 SAME (注意 ，ResNet 原 论文 中 使 用 的 是 VALID 模式 ， 设 为 SAME 可 让 
特征 对 齐 更 简单 ， 读 者 可 以 党 试 改 为 VALID) . Ri, KUIEREN 
arg_scope 作 为 结果 返回 。 


def resnet_arg scope(is_training=True, 
weight_decay=0.0001, 
batch_norm_decay=@.997, 
batch_norm_epsilon=1e-5, 


batch_norm_scale=True): 


batch_norm_params = { 
"is training’: is training, 
"decay': batch_norm_decay, 
“epsilon': batch_norm_epsilon, 
"scale': batch_norm_scale, 


"updates _collections': tf.GraphKeys.UPDATE_OPS, 


with slim.arg_scope( 


[slim.conv2d], 
weights _regularizer=slim.12 regularizer(weight_decay), 
weights initializer=slim.variance_ scaling initializer(), 
activation_fn=tf.nn.relu, 
normalizer_fn=slim.batch_norm, 
normalizer_params=batch_norm_params): 
with slim.arg scope([slim.batch_norm], **batch_norm_params): 
with slim.arg_scope([slim.max_pool2d], padding='SAME') as arg sc: 


return arg sc 


接 下 来 定义 核心 的 bottleneck 残 差 学 习 单 元 ， 它 是 ResNet V2 的 论文 中 
是 到 的 Full Preactivation Residual Unit 的 一 个 变种 。 它 和 ResNet V1 中 的 残 
差 学 习 单 元 的 主要 区 别 有 两 点 ， 一 是 在 每 一 层 前 都 用 了 Batch 
Normalization， 二 是 对 输入 进行 preactivation ， 而 不 是 在 卷 积 进行 激活 加 
SUMNER, TIS A— F bottleneck KAMAE, inputs ii A, depth, 
depth_bottleneck 和 stride 这 三 个 参数 前 面 的 Blocks 类 中 的 args , 
outputs_collections 是 收集 end_points 的 collection ，scope 是 这 个 unit 的 名 


称 。 下 面 先 使 用 Slim.utils.last_dimension 卫 数 获取 输入 的 最 后 一 个 维度 ， 


即 输出 通道 数 ， 其 中 的 参数 min_rank=4 可 以 限定 最 少 为 4 个 维度 。 接 着 ， 
使 用 slim.batch_norm 对 输入 进行 Batch Normalization, ##{7@ ReLU A Ait 
行 预 激 活 Preactivate。 然 后 定义 shorcut ( 即 直 连 的 x) : 如 果 残 差 单 元 的 输 
入 通道 数 depth_in 和 输出 通道 数 depth 一 致 ， 那 么 使 用 subsample 按 步 长 为 
stride 对 inputs 进 行 空间 上 的 降 采 样 《确保 空间 尺寸 和 残 差 一 致 ， 因 为 残 差 
中 间 那 层 的 卷 积 步 长 为 stride) ; 如 果 输 入 、 输 出 通道 数 不 一 样 ， 我 们 用 
步 长 为 stride 的 1x1 卷 积 改变 其 通道 数 ， 使 得 与 输出 通道 数 一 致 。 然 后 定义 
residual ( 残 差 ) ，residual 这 里 有 3 层 ， 先 是 一 个 1x1 尺 寸 、 步 长 为 1、 输 
出 通道 数 为 depth_bottleneck 的 卷 积 ， 然 后 是 一 个 3x3 尺 寸 、 步 长 为 stride、 
输出 通道 数 为 depth_bottleneck 的 卷 积 ， 最 后 是 一 个 1x1 卷 积 、 步 长 为 1、 
输出 通道 数 为 depth 的 卷 积 ， 得 到 最 终 的 residual ， 这 里 注意 最 后 一 层 没有 
正则 项 也 没有 激活 图 数 。 然 后 将 residual 和 shorcut 相 加 ， 得 到 最 后 结 
output， 再 使 用 slim.utils.collect_named_outputs 将 结果 添加 进 collection 并 返 
[loutput/FA AKAR. 


@slim.add_arg scope 
def bottleneck(inputs, depth, depth_bottleneck, stride, 


outputs _collections=None, scope=None): 


with tf.variable scope(scope, ‘'bottleneck_v2', [inputs]) as sc: 
depth_in = slim.utils.last_dimension(inputs.get_shape(), min_rank=4) 
preact = slim.batch_norm(inputs, activation _fn=tf.nn.relu, 
scope='preact' ) 
if depth == depth_in: 
shortcut = subsample(inputs, stride, ‘shortcut’ ) 
else: 
shortcut = slim.conv2d(preact, depth, [1, 1], stride=stride, 
normalizer_fn=None, activation_fn=None, 
scope='shortcut' ) 


residual = slim.conv2d(preact, depth_bottleneck, [1, 1], stride=1, 


scope='conv1' ) 

residual = conv2d_same(residual, depth bottleneck, 3, stride, 
scope='conv2' ) 

residual = slim.conv2d(residual, depth, [1, 1], stride=1, 
normalizer_fn=None, activation_fn=None, 


scope='conv3") 
output = shortcut + residual 


return slim.utils.collect_named_outputs(outputs collections, 


sc.name, output) 


下 面 定义 生成 ResNet V2 的 主 图 数 ， 我 们 只 要 预先 定义 好 网 络 的 残 差 
学 习 模 块 组 blocks， 它 就 可 以 生成 对 应 的 完整 的 ResNet。 先 来 看 一 下 这 个 
国 数 的 参数 ，inputs 即 输入 ，blocks 为 定义 好 的 Block 类 的 列表 ， 
num_classes 是 最 后 输出 的 类 数 ，global_pool 标 志 是 否 加 上 最 后 的 一 层 全 局 
平均 池 化 ，include_root_block 标 志 是 否 加 上 ResNet 网 络 最 前 面 通常 使 用 的 
7x7 卷 积 和 最 大 池 化 ，reuse 标 志 是 否 重用 ，scope 是 整个 网 络 的 名 称 。 在 
国 数 体内 ， 我 们 先 定 义 好 variable_scope 及 end_points_collection ， 再 通过 
slim.arg_scope 将 (slim.con2d、bottleneck、 stack_block_dense) = 
数 的 参数 outputs_collections 默 认 设 为 end_points_collection。 然 后 根据 
include_root_block 标 记 ， 创 建 ResNet 最 前 面 的 64 输 出 通道 的 步 长 为 2 的 7x7 


卷 积 ， 然 后 再 接 一 个 步 长 为 2 的 3x3 最 大 池 化 。 经 历 两 个 步 长 为 2 的 层 ， 
片 尺 寸 已 经 被 缩小 为 /4。 然 后， 使 用 前 面 定义 的 stack_blocks_dense 将 残 
差 学 习 模 块 组 生成 好 ， 再 根据 标记 添加 全 局 平均 池 化 层 ， 这 里 用 
tf.reduce_mean 实 现 全 局 平均 池 人 化， 效率 比 直接 用 avg_pool 高 。 下 面 根据 
是 否 有 分 类 数 ， 添 加 一 个 输出 通道 为 num_classes 的 1x1 卷 积 (该 卷 积 层 无 
激活 图 数 和 正则 项 ) ， 再 添加 一 个 Softmax 层 输出 网 络 结 果 。 同 时 使 用 
slim.utils.convert_collection_to_dict 将 collection 转 化 为 Python 的 dict， 最 后 
返回 net 和 end_points。 


def resnet_v2(inputs, 
blocks, 
num_classes=None, 
global_pool=True, 
include _root_block=True, 
reuse=None, 


scope=None) : 


with tf.variable_scope(scope, 'resnet v2', [inputs], reuse=reuse) as sc: 


end_points_collection = sc.original_name_scope + '_end_points' 
with slim.arg scope([slim.conv2d, bottleneck, 
stack_blocks_dense], 
outputs_collections=end_points_ collection): 
net = inputs 
if include_root_block: 
with slim.arg scope([slim.conv2d], activation_fn=None, 
normalizer_fn=None) : 
net = conv2d_same(net, 64, 7, stride=2, scope='conv1') 
net = slim.max_pool2d(net, [3, 3], stride=2, scope='pool1') 
net = stack _blocks_dense(net, blocks) 
net = slim.batch_norm(net, activation_fn=tf.nn.relu, scope='postnorm' ) 
if global _ pool: 
net = tf.reduce_mean(net, [1, 2], name='pool5', keep _dims=True) 
if num_classes is not None: 
net = slim.conv2d(net, num_classes, [1, 1], activation_fn=None, 


normalizer_fn=None, scope='logits') 


end_points = slim.utils.convert_collection_to_ dict( 
end_ points collection) 
if num_classes is not None: 
end_points[ 'predictions'] = slim.softmax(net, scope='predictions') 


return net, end points 


至 此 ， 我 们 就 将 ResNet 的 生成 函数 定义 好 了 ， 下 面 根据 图 6-17 中 推荐 
的 几 个 不 同 深度 的 ResNet 网 络 配 置 ， 来 设计 层 数 分 别 为 50、101、152 和 
200 的 ResNet。 我 们 先 来 看 50 层 的 ResNet， 其 严格 遵守 了 图 6-17 所 示 的 设 
置 ，4 个 残 差 学 习 Blocks 的 units 数 量 分 别 为 3、4、6 和 和 3， 总 层 数 即 为 
(3+4+6+3) x3+2=50。 需 要 注意 的 是 ， 残 差 学 习 模 块 之 前 的 卷 积 、 池 化 
已 经 将 尺寸 缩小 了 4 倍 ， 我 们 前 3 个 Blocks 又 都 包含 步 长 为 2 的 层 ， 因 此 总 
尺寸 缩小 了 4x8=32 倍 ， 输 入 图 片 尺寸 最 后 变 为 224/32=7。 和 Inception V3 
很 像 ，ResNet 不 断 使 用 步 长 为 2 的 层 来 缩减 尺寸 ， 但 同时 输出 通道 数 也 在 
持续 增加 ， 最 后 达到 了 2048。 


def resnet_v2_5@(inputs, 
num_classes=None, 
global_pool=True, 
reuse=None, 
scope='resnet_v2_5@'): 
blocks = [ 
Block('block1', bottleneck, [(256, 64, 1)] * 2 + [(256, 64, 2)]), 
Block('block2', bottleneck, [(512, 128, 1)] * 3 + [(512, 128, 2)]), 
Block('block3', bottleneck, [(1024, 256, 1)] * 5 + [(1024, 256, 2)]), 
Block('block4', bottleneck, [(2048, 512, 1)] * 3)] 
return resnet_v2(inputs, blocks, num_classes, global_pool, 


include_root_block=True, reuse=reuse, scope= scope) 


101 层 的 ResNet 和 50 层 相 比 ， 主 要 变化 就 是 把 4 个 Blocks 的 units 数 量 从 
3、4、6、3 提 升 到 了 3、4、23、3。 即 将 第 三 个 残 差 学 习 Block 的 units 数 增 
加 到 接近 4 倍 。 


def resnet_v2_101(inputs, 
num_classes=None, 
global_pool=True, 


reuse=None, 


scope='resnet_v2_101'): 
blocks = [ 
Block('block1', bottleneck, [(256, 64, 1)] * 2 + [(256, 64, 2)]), 
Block('block2', bottleneck, [(512, 128, 1)] * 3 + [(512, 128, 2)]), 
Block('block3', bottleneck, [(1024, 256, 1)] * 22 + [(1024, 256, 2)]), 
Block('block4', bottleneck, [(2048, 512, 1)] * 3)] 
return resnet_v2(inputs, blocks, num_classes, global pool, 


include _root_block=True, reuse=reuse, scope= scope) 


然后 152 层 的 ResNet， 则 是 将 第 二 个 Block 的 units 数 提高 到 8， 将 第 三 
个 Block 的 units 数 提高 到 36。Units 数 量 提 升 的 主要 场所 依然 是 第 三 个 
Blocko 


def resnet_v2_152(inputs, 
num_classes=None, 
global_pool=True, 
reuse=None, 
scope='resnet_v2_152'): 
blocks = [ 
Block('block1', bottleneck, [(256, 64, 1)] * 2 + [(256, 64, 2)]), 
Block('block2', bottleneck, [(512, 128, 1)] * 7 + [(512, 128, 2)]), 
Block('block3', bottleneck, [(1024, 256, 1)] * 35 + [(1024, 256, 2)]), 
Block('block4', bottleneck, [(2048, 512, 1)] * 3)] 
return resnet_v2(inputs, blocks, num_classes, global pool, 


include_root_block=True, reuse=reuse, scope=scope) 


最 后 ，200 层 的 ResNet 相 比 152 层 的 ResNet， 没 有 继续 提升 第 三 个 
Block 的 units 数 ， 而 是 将 第 二 个 Block 的 units 数 一 下 子 提升 到 了 23。 


def resnet v2 266(inputs， 
num_classes=None, 
global_pool=True, 
reuse=None, 
scope='resnet_v2_200'): 
blocks = [ 
Block('block1', bottleneck, [(256, 64, 1)] * 2 + [(256, 64, 2)]), 


Block('block2', bottleneck, [(512, 128, 1)] * 23 + [(512, 128, 2)]), 
Block('block3', bottleneck, [(1024, 256, 1)] * 35 + [(1024, 256, 2)]), 
Block('block4', bottleneck, [(2048, 512, 1)] * 3)] 

return resnet_v2(inputs, blocks, num_classes, global_pool, 


include_root_block=True, reuse=reuse, scope= scope) 


最 后 我 们 使 用 一 直 以 来 的 评测 函数 time_tensorflow_run， 来 测试 152 
层 深 的 ResNet ( 即 获得 ILSVRC 2015 冠 军 的 版 本 ) 的 forward 性 能 。 图 片 
尺寸 回归 到 AlexNet、VGGNet 的 224x224 batch size 为 32。 我 们 将 
is_training 这 个 FLAG 置 为 False， 然 后 使 用 resnet_v2_152 创 建 网 络 ， 再 由 
time_tensorflow_run 国 数 评测 其 forward 性 能 。 由 于 篇 幅 原 因 ， 就 不 对 其 训 
练 时 的 性 能 进行 测试 了 ， 感 兴趣 的 读者 可 以 测试 求解 ResNet 全 部 参数 的 
梯度 所 需要 的 时 间 。 


batch_size = 32 

height, width = 224, 224 

inputs = tf.random_uniform((batch_size, height, width, 3)) 
with slim.arg scope(resnet_arg scope(is_training=False) ): 


net, end_points = resnet_v2_152(inputs, 1000) 


init = tf.global_ variables initializer() 
sess = tf.Session() 

sess.run(init) 

num_batches=10@ 


time_tensorflow_run(sess, net, "Forward") 


这 里 可 以 看 到 ， 虽 然 这 个 ResNet 有 152 层 深 ， 但 其 forward 计 算 耗 时 并 
没有 特别 夸张 ， 相 比 VGGNet 和 Inception V3， 大 概 只 增加 了 50%， 每 batch 
为 0.202 秒 。 这 说 明 ResNet 也 是 一 个 实用 的 卷 积 神经 网 络 结构 ， 不 仅 支 持 
超 深 网 络 的 训练 ， 同 时 在 实际 工业 应 用 时 也 有 不 差 的 forward 性 能 。 


2016-12-10 21:23:43.676945: step @, duration = 0.202 


2016-12-10 21:23:45.699069: step 10, duration = 0.203 
2016-12-10 21:23:47.722190: step 20, duration = 0.203 
2016-12-10 21:23:49.745069: step 30, duration = 0.202 
2016-12-10 21:23:51.770527: step 40, duration = 0.202 
2016-12-10 21:23:53.797204: step 50, duration = 0.202 
2016-12-10 21:23:55.822281: step 60, duration = 0.203 
2016-12-10 21:23:57.848449: step 70, duration = 0.203 
2016-12-10 21:23:59.877548: step 80, duration = 0.203 


2016-12-10 21:24:01.906566: step 90, duration = 0.203 
2016-12-10 21:24:03.734302: Forward across 100 steps, 9.203 +/- 0.000 sec / 
batch 


本 节 我 们 完整 地 讲解 了 ResNet 的 基本 原理 及 其 TensorFlow 实 现 ， 也 设 
计 了 一 系列 不 同 深 度 的 ResNet。 读 者 若 感 兴趣 ， 可 以 自行 探索 不 同 深 
度 、 旋 至 不 同 残 差 单元 结构 的 ResNet 的 分 类 性 能 。 例 如 ，ResNet 原 论文 
中 主要 增加 的 是 第 二 个 和 第 三 个 Block 的 units 数 ， 读 者 可 以 党 试 增 加 其 余 
两 个 Block 的 units 数 ， 或 者 修改 bottleneck 单 元 中 的 depth、depth_bottleneck 
等 参数 ， 可 对 其 参数 设置 的 意义 加 深 理解 。ResNet 可 以 算是 深度 学 习 中 
一 个 里 程 碑 式 的 突破 ， 真 正 意义 上 支持 了 极 深 神 经 网 络 的 训练 。 其 网 络 
结构 值得 反复 思索 ， 如 Google 等 已 将 其 融合 到 自家 的 Inception Net 中 ， 并 
取得 了 非常 好 的 效果 。 相 信 ResNet 的 成 功 也 会 启发 其 他 在 深度 学 习 领 域 
研究 的 灵感 。 


65 ” 卷 积 神经 网 络 发 展 趋势 


本 节 ， 我 们 简单 回顾 卷 积 神经 网 络 的 历史 ， 图 6-18 所 示 大 致 勾勒 出 最 
近 几 十 年 卷 积 神经 网 络 的 发 展 方向 。Perceptron (感知 机 ) 于 1957 年 由 


Frank Resenblatt 提 出 ， 而 Perceptron 不 仅 是 卷 积 网 络 ， 也 是 神经 网 络 的 始 
祖 。Neocognitron (神经 认 知 机 ) 是 一 种 多 层级 的 神经 网 络 ， 由 日 本 科学 
家 Kunihiko Fukushima 于 20 世 纪 80 年 代 提 出 ， 具 有 一 定 程度 的 视觉 认 知 的 
功能 ， 并 直接 启发 了 后 来 的 卷 积 神经 网 络 。LeNet-5 由 CNN 之 父 Yann 
LeCun 于 1997 年 提出 ， 首 次 提出 了 多 层级 联 的 卷 积 结构 ， 可 对 手写 数字 
进行 有 效 识 别 。 可 以 看 到 前 面 这 三 次 关于 卷 积 神经 网 络 的 技术 突破 ， 间 
隔 时 间 非 常 长 ， 需 要 十 余年 甚至 更 久 才 出 现 一 次 理论 创新 。 而 后 于 2012 
年 ，Hinton 的 学 生 Alex 依 靠 8 层 深 的 卷 积 神经 网 络 一 举 获 得 了 ILSVRC 
2012 比 赛 的 冠军 ， 瞬 间 点 燃 了 卷 积 神经 网 络 研究 的 热潮 。AlexNet 成 功 应 
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术 ， 并 启发 了 后 续 更 多 的 技术 创新 ， 卷 积 神经 网 络 的 研究 从 此 进入 快车 


道 。 


| es } 


图 6-18 ” 卷 积 神经 网 络 发 展 图 


在 AlexNet 之 后 ， 我 们 可 以 将 卷 积 神经 网 络 的 发 展 分 为 两 类 ， 一 类 是 
网 络 结构 上 的 改进 调整 (图 6-18 中 的 左 侧 分 支 ) ， 另 一 类 是 网 络 深度 的 增 
加 (图 6-18 中 的 右 侧 分 支 ) 。2013 年 ， 颜 水 成 教授 的 Network in Network 
工作 首次 发 表 ， 优 化 了 卷 积 神经 网 络 的 结构 ， 并 推广 了 1x1 的 卷 积 结构 。 


在 改进 卷 积 网 络 结构 的 工作 中 ， 后 继 者 还 有 2014 年 的 Google Inception Net 
V1， 提 出 了 Inception Module 这 个 可 以 反复 堆 盖 的 高 效 的 卷 积 网 络 结构 ， 
并 获得 了 当年 ILSVRC 比 赛 的 冠军 。2015 年 初 的 Inception V2 提出 了 Batch 
Normalization， 大 大 加 速 了 训练 过 程 ， 并 提升 了 网 络 性 能 。2015 年 年 末 的 
Inception V3 则 继续 优化 了 网 络 结构 ， 提 出 了 Factorization in Small 
Convolutions 的 思想 ， 分 解 大 尺寸 卷 积 为 多 个 小 卷 积 力 至 一 维 卷 积 。 而 另 
一 条 分 支 上 ， 许 多 研究 工作 则 致力 于 加 深 网 络 层 数 ，2014 年 ，ILSVRC 比 
赛 的 亚军 VGGNet 全 程 使 用 3x3 的 卷 积 ， 成 功 训 练 了 深 达 19 层 的 网 络 ， 当 
年 的 季军 MSRA-Net 也 使 用 了 非常 深 的 网 络 。2015 年 ， 微 软 的 ResNet 成 功 
训练 了 152 层 深 的 网 络 ， 一 举 拿 下 了 当年 ILSVRC 比 赛 的 冠军 ，top-5 错 误 
率 降低 至 3.46%。 其 后 又 更 新 了 ResNet V2， 增 加 了 Batch Normalization, 
并 去 除了 激活 层 而 使 用 Identity Mapping 或 Preactivation ， 进 一 步 提升 了 网 
络 性 能 。 此 后 Inception ResNet V2 融 合 了 Inception Net 优 良 的 网 络 结 
构 ， 和 ResNet 训 练 极 深 网 络 的 残 差 学 习 模 块 ， 集 两 个 方向 之 长 ， 取 得 了 
更 好 的 分 类 效果 。 

我 们 可 以 看 到 ， 自 AlexNet 于 2012 年 提出 后 ， 深 度 学 习 领 域 的 研究 发 
展 极其 迅速 ， 基 本 上 每 年 甚至 每 几 个 月 都 会 出 现 新 一 代 的 技术 。 新 的 拉 
术 往 往 伴随 着 新 的 网 络 结构 ， 更 深 的 网 络 的 训练 方法 等 ， 并 在 图 像 识别 
等 领域 不 断 创造 新 的 准确 率 记 录 。 至 今 ，ILSVRC 比 赛 和 卷 积 神经 网 络 的 
研究 依然 处 于 高 速 发 展期 ，CNN 的 技术 日 新 月 异 。 当 然 其 中 不 可 忽视 的 
推动 力 是 ， 我 们 拥有 了 更 快 的 GPU 计算 资源 用 以 实验 ， 以 及 非常 方便 的 
开源 工具 (比如 TensorFlow) 可 以 让 研究 人 员 快 速 地 进行 探索 和 尝试 。 在 
以 前 ， 研 究 人 员 如 果 没 有 像 Alex 那 样 高 超 的 编程 实力 能 自己 实现 cuda- 
convnet ， 可 能 都 没 办 法 设计 CNN 或 者 快速 地 进行 实验 。 现 在 有 了 
TensorFlow， 研 究 人 员 和 开发 人 员 都 可 以 简单 而 快速 地 设计 神经 网 络 结构 
并 进行 研究 、 测 试 、 部 署 乃 至 实用 。 


7 ” ”TensorFlow 实 现 循 环 神 经 网 络 及 
Word2Vec 


本 章 我 们 将 探索 循环 神经 网 络 (RNN) 和 Word2vecs ， 并 在 
TensorFlow 上 实现 它们 。 循 环 神经 网 络 是 在 NLP (Nature Language 
Processing， 自 然 语 言 处 理 ) 领域 最 常 使 用 的 神经 网 络 结 构 ， 和 卷 积 神经 
网 络 在 图 像 识别 领域 的 地 位 类 似 。 而 Word2Vec 则 是 将 语言 中 的 字 词 转化 
为 计算 机 可 以 理解 的 稠密 向 量 (Dense Vector) ， 进 而 可 以 做 其 他 自然 语 
言 处 理 任务 ， 比 如 文本 分 类 、 词 性 标注 、 机 器 翻译 等 。 


7.1 ”TensorFlow 实 现 Word2Vec 


Word2Vec 也 称 Word Embeddings， 中 文 有 很 多 叫 法 ， 比 较 普 便 的 是 
“jal” eA”. Word2Vec 是 一 个 可 以 将 语言 中 字 词 转 为 向 量 形式 
表达 (Vector Representations) 的 模型 ， 我 们 先 来 看 看 为 什么 要 把 字 词 转 
为 向 量 。 图 像 、 音 频 等 数据 天 然 可 以 编码 并 存储 为 稠密 向 量 的 形式 ， 比 
如 图 片 是 像素 点 的 稠密 矩阵， 音频 可 以 转 为 声音 信号 的 频谱 数据 。 自 然 
语言 处 理 在 Word2Vec 出 现 之 前 ， 通 党 将 字 词 转 成 离散 的 单独 的 符号 ， 比 
如 将 “中 国 ” 转 为 编号 为 5178 的 特征 ， 将 “北京 ” 转 为 编号 为 3987 的 特征 。 这 
即 是 One-Hot Encoder， 一 个 词 对 应 一 个 向 量 (向 量 中 只 有 一 个 值 为 1， 其 
余 为 0) ， 通 常 需 要 将 一 篇 文章 中 每 一 个 词 都 转 成 一 个 向 量 ， 而 整 篇 文章 
则 变 为 一 个 稀疏 矩阵。 对 文本 分 类 模型 ， 我 们 使 用 Bag of Words 模 型 ， 将 
文章 对 应 的 稀疏 矩阵 合并 为 一 个 向 量 ， 即 把 每 一 个 词 对 应 的 向 量 加 到 一 
起 ， 这 样 只 统计 每 个 词 出 现 的 次 数 ， 比 如 “中 国 ” 出 现 23 次 ， 那 么 第 5178 
个 特征 为 23,， “北京 ”出 现 2 次 ， 那 么 第 3987 个 特征 为 2。 


使 用 One-Hot Encoder 有 一 个 问题 ， 即 我 们 对 特征 的 编码 往往 是 随机 
的 ， 没 有 提供 任何 关联 信息 ， 没 有 考虑 到 字 词 间 可 能 存在 的 关系 。 例 
如 ， 我 们 对 “中 国 * 和 “北京 ”的 从 属 关 系 、 地 理 位 置 关 系 等 一 无 所 知 ， 我 们 
从 5178 和 3987 这 两 个 值 看 不 出 任何 信息 。 同 时 ， 将 字 词 存储 为 稀疏 向 量 
的 话 ， 我 们 通常 需要 更 多 的 数据 来 训练 ， 因 为 稀疏 数据 训练 的 效率 比较 


低 ， 计 算 也 非常 麻烦 。 使 用 向 量 表达 (Vector Representations) 则 可 以 有 
效 地 解决 这 个 问题 。 向 量 空间 模型 (Vector Space Models) 可 以 将 字 词 转 
为 连续 值 《相对 于 One-Hot 编 码 的 离散 值 ) 的 向 量 表 达 ， 并 且 其 中 意思 相 
近 的 词 将 被 映射 到 向 量 空间 中 相近 的 位 置 。 向 量 空间 模型 在 NLP 中 主要 
依赖 的 假设 是 Distributional Hypothesis， 即 在 相同 语 境 中 出 现 的 词 其 语义 
也 相近 。 向 量 空间 模型 可 以 大 致 分 为 两 类 ， 一 类 是 计数 模型 ， 比 如 Latent 
Semantic Analysis; 另 一 类 是 预测 模型 (比如 Neural Probabilistic Language 
Models) 。 计 数 模 型 统计 在 语料库 中 ， 相 邻 出 现 的 词 的 频率 ， 再 把 这 些 
计数 统计 结果 转 为 小 而 稠密 的 矩阵 ; 而 预测 模型 则 根据 一 个 词 周围 相 邻 
的 词 推测 出 这 个 词 ， 以 及 它 的 空间 向 量 。 

Word2Vec 即 是 一 种 计算 非常 高 效 的 ， 可 以 从 原始 语 料 中 学 习 字 词 空 
间 向 量 的 预测 模型 。 它 主要 分 为 CBOW (Continuous Bag of Words) 和 
Skip-Gram 两 种 模式 ， 其 中 CBOW 是 从 原始 语句 (比如 : 中 国 的 首都 是 
— ) 推测 目标 字 词 (比如 : 北京 ) ; 而 Skip-Gram 则 正好 相反 ， 它 是 从 
目标 字 词 推测 出 原始 语句 ， 其 中 CBOW 对 小 型 数据 比较 合适 ， 而 Skip- 
Gram 在 大 型 语 料 中 表现 得 更 好 。 


使 用 Word2Vec 训 练 语 料 能 得 到 一 些 非常 有 趣 的 结果 ， 比 如 意思 相近 
的 词 在 向 量 空间 中 的 位 置 会 接近 。 从 一 份 Google 训 练 超大 语 料 得 到 的 结 
果 中 看 ， 诸 如 Beijing、London、New York 等 城市 的 名 字 会 在 向 量 空间 中 
聚集 在 一 起 ， 而 Cat、Dog、Fish 等 动物 词汇 也 会 聚集 在 一 起 。 同 时 ， 如 图 
7-1 所 示 ，Word2Vec 还 能 学 会 一 些 高 阶 的 语言 概念 ， 比 如 我 们 计算 “man” 
到 “woman” 的 向 量 〈 词 汇 都 是 向 量 空间 中 的 点 ， 可 计算 两 点 间 的 向 量 ) ， 
会 发 现 它 和 “king” 到 “queen” 的 向 量 非 常 相似 ， 即 模型 学 到 了 男人 与 女人 
的 关系 ; 同时 ，“walking” 到 “walked” 的 向 量 和 “swimming” 到 “swam” 的 向 
量 非常 相似 ， 模 型 学 到 了 进行 时 与 过 去 时 的 关系 。 


Male-Female Verb tense Country-Capital 


图 7-1 Word2Vec 模 型 可 学 习 到 的 抽象 概念 


预测 模型 Neural Probabilistic Language Models 通 常 使 用 最 大 似 然 的 方 
法 ， 在 给 定 前 面 的 语句 h 的 情况 下 ， 最 大 化 目标 词汇 w, 的 概率 。 但 它 存 在 
的 一 个 比较 严重 的 问题 是 计算 量 非 常 大 ， 需 要 计算 词汇 表 中 所 有 单词 出 
现 的 可 能 性 。 在 Word2Vec 的 CBOW 模 型 中 ， 不 需要 计算 完整 的 概率 模 
型 ， 只 需要 训练 一 个 二 元 的 分 类 模型 ， 用 来 区 分 真实 的 目标 词汇 和 编造 
的 词汇 (噪声 ) 这 两 类 ， 如 图 7-2 所 示 。 这 种 用 少量 噪声 词汇 来 估计 的 方 
法 ， 类 似 于 蒙特 卡 洛 模拟 。 


Noise classifier (WO VS (Wy (Wa) (Wa) === (We) 


Hidden layer 
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图 7-2 CBOW 模 型 结构 示意 图 


当 模 型 预测 真实 的 目标 词汇 为 高 概率 ， 同 时 预测 其 他 噪声 词汇 为 低 
概率 时 ， 我 们 训练 的 学 习 目 标 就 被 最 优化 了 。 用 编造 的 噪声 词汇 训练 的 
方法 被 称 为 Negative Sampling。 用 这 种 方法 计算 loss function 的 效率 非常 
高 ， 我 们 只 需要 计算 随机 选择 的 k 个 词汇 而 非 词 汇 表 中 的 全 部 词汇 ， 因 此 
训练 速度 非常 快 。 在 实际 中 ， 我 们 使 用 Noise-Contrastive Estimation 

(NCE) Loss， 同 时 在 TensorFlow 中 也 有 tf.nn.nce_loss() 直 接 实现 了 这 个 
losso 


在 本 节 中 我 们 将 主要 使 用 Skip-Gram 模 式 的 Word2Vec， 先 来 看 一 下 它 
训练 样本 的 构造 ， 以 “the quick brown fox jumped over the lazy dog” 这 句 话 
为 例 。 我 们 要 构造 一 个 语 境 与 目标 词汇 的 映射 关系 ， 其 中 语 境 包括 一 个 
单词 左边 和 右边 的 词汇 ， 假 设 我 们 的 滑 窗 尺寸 为 1， 可 以 制造 的 映射 关系 
包括 [the,brown] > quick, [quick,fox] — brown, [brown,jumped] — fox 
等 。 因 为 Skip-Gram 模 型 是 从 目标 词汇 预测 语 境 ， 所 以 训练 样本 不 再 是 
[the,brown] > quick， 而 是 quick > the 和 quick > brown. 我 们 的 数据 集 
就 变 为 了 (quick,the)、(quick,brown)、(brown,quick)、(brown,fox) 等 。 我 们 
训练 时 ， 和 希望 模型 能 从 目标 词汇 quick 预 测 出 语 境 the， 同 时 也 需要 制造 随 


Projection layer 


机 的 词汇 作为 负 样 本 (噪声 ) ， 我 们 希望 预测 的 概率 分 布 在 正 样 本 the 上 
尽 可 能 大 ， 而 在 随机 产生 的 负 样 本 上 尽 可 能 小 。 这 里 的 做 法 就 是 通过 优 
化 算法 比如 SGD 来 更 新 模型 中 Word Embedding 的 参数 ， 让 概率 分 布 的 损 
KRIŽ (NCE Loss) 尽 可 能 小 。 这 样 每 个 单词 的 Embedded Vector 就 会 随 
着 训练 过 程 不 断 调整 ， 直 到 处 于 一 个 最 适合 语 料 的 空间 位 置 。 这 样 我 们 
的 损失 函数 最 小 ， 最 符合 语 料 ， 同 时 预测 出 正确 单词 的 概率 也 最 高 。 


下 面 开 始 用 TensorFlow 实 现 Word2Vec 的 训练 。 首 先 依然 是 载 入 各 种 


依赖 库 ， 


这 里 因为 要 从 网 络 下 载 数 据 ， 因 此 需要 的 依赖 库 比较 多 。 本 节 


代 人 码 主 要 来 自 TensorFlow 的 开源 实现 5 。 


import 
import 
import 
import 
import 
import 
import 


import 


collections 
math 

os 

random 
zipfile 
numpy as np 
urllib 


tensorflow as tf 


我 们 先 定 义 下 载 文 本 数据 的 水 数 。 这 里 使 用 urllib.request.urlretrieve F 
载 数据 的 压缩 文件 并 核对 文件 尺寸 ， 如 果 已 经 下 载 了 文件 则 跳 过 。 


url = 


"http: //mattmahoney.net/dc/' 


def maybe_download(filename, expected bytes): 


if not os.path.exists(filename): 


filename, 


= urllib.request.urlretrieve(url + filename, filename) 


statinfo = os.stat(filename) 


if statinfo.st_size == expected_bytes: 
print('Found and verified’, filename) 
else: 
print(statinfo.st_size) 
raise Exception( 
"Failed to verify ' + filename + '. Can you get to it with a browser?’ ) 


return filename 


filename = maybe _download('text8.zip', 31344016) 


接 下 来 解压 下 载 的 压缩 文件 ， 并 使 用 tt.compat.as_str 将 数据 转 成 单词 
的 列表 。 通 过 程序 输出 ， 可 以 知道 数据 最 后 被 转 为 了 一 个 包含 17005207 
个 单词 的 列表 。 


def read data(filename): 
with zipfile.ZipFile(filename) as f: 
data = tf.compat.as_ str(f.read(f.namelist()[@])).split() 


return data 


words = read_data(filename) 


print('Data size', len(words)) 


接 下 来 创建 vocabulary 词 汇 表 ， 我 们 使 用 collections.Counter 统 计 单 词 
列表 中 单词 的 频数 ， 然 后 使 用 most_common 方 法 取 top 50000 频 数 的 单词 
作为 vocabulary。 再 创建 一 个 dict ， 将 top 50000 词 汇 的 vocabulary 放 入 
dictionary 中 ， 以 便 快 速 查询 ，Python 中 dict 查 询 复杂 度 为 0(1)， 性 能 非常 
好 。 接 下 来 将 全 部 单词 转 为 编号 (以 频数 排序 的 编号 ) ，top 50000 词 汇 
之 外 的 单词 ， 我 们 认定 其 为 Unkown (AR) ， 将 其 编号 为 0， 并 统计 这 
类 词汇 的 数量 。 下 面 遍历 单词 列表 ， 对 其 中 每 一 个 单词 ， 先 判断 是 否 
现在 dictionary 中 ， 如 果 是 则 转 为 其 编号 ， 如 果 不 是 则 转 为 编号 0 

(Unkown) 。 最 后 返回 转换 后 的 编码 (data) 、 每 个 单词 的 频数 统计 
(count) 、 词 汇 表 (dictionary) 及 其 反 转 的 形式 (reverse_dictionary) o 


vocabulary_size = 50000 


def build _dataset(words): 
count = [['UNK', -1]] 


count.extend(collections.Counter(words).most_common(vocabulary_size - 1)) 


dictionary = dict() 
for word, _ in count: 
dictionary[word] = len(dictionary) 
data = list() 
unk_count = @ 
for word in words: 
if word in dictionary: 
index = dictionary[word] 
else: 
index = 6 
unk_count += 1 
data. append( index) 
count[@][1] = unk_count 
reverse dictionary = dict(zip(dictionary.values(), dictionary.keys())) 
return data, count, dictionary, reverse_dictionary 


data, count, dictionary, reverse_dictionary = build_dataset(words) 


然后 我 们 删除 原始 单词 列表 ， 可 以 节约 内 存 。 再 打印 vocabulary 中 最 
高 频 出 现 的 词汇 及 其 数量 (包括 Unknown 词 汇 ) ， 可 以 看 到 “UNK” 这 类 
一 共有 418391 个 ， 最 常 出 现 的 “the”* 有 1061396 个 ， 排 名 第 二 的 “of” 有 
593677 个 。 我 们 的 data 中 前 10 个 单词 为 
[‘anarchism’,'originated'’,'as','a’,'term','of','abuse’,'first’,'used','against'] ， 对 应 的 
编号 为 [5235,3084,12,6,195,2,3137,46,59,156] 

del words 


print('Most common words (+UNK)', count[:5]) 


print('Sample data', data[:10], [reverse _dictionary[i] for i in data[:10]]) 


下 面 生成 Word2Vec 的 训练 样本 。 我 们 根据 前 面 提 到 的 Skip-Gram 模 式 
(从 目标 单词 反 推 语 境 ) ， 将 原始 数据 “the quick brown fox jumped over 
the lazy dog” 转 为 (quick,the)、(quick,brown)、(brown,guick)、(brown,fox) 等 
样本 。 我 们 定义 函数 generate_batch 用 来 生成 训练 用 的 batch 数 据 ， 参 数 中 
batch_size 为 batch 的 大 小 ; skip_window 指 单词 最 远 可 以 联系 的 距离 ， 设 为 
1 代表 只 能 跟 紧 邻 的 两 个 单词 生成 样本 ， 比 如 guick 只 能 和 前 后 的 单词 生成 
两 个 样本 (quick,the) 和 (guick,brown) ; num_skips 为 对 每 个 单词 生成 
多 少 个 样本 ， 它 不 能 大 于 skip_window 值 的 两 倍 ， 并 且 batch_size 必 须 是 它 
的 整数 倍 (确保 每 个 batch 包 含 了 一 个 词汇 对 应 的 所 有 样本 ) 。 我 们 定义 
单词 序号 data_index 为 global 变 量 ， 因 为 我 们 会 反复 调用 generate_batch， 
所 以 要 确保 data_index 可 以 在 图 数 generate_batch 中 被 修改 。 我 们 也 使 用 
assert 确 保 num_skips 和 batch_size 满 足 前 面 提 到 的 条 件 。 然 后 用 np.ndarray 
将 batch 和 1labels 初 始 化 为 数组 。 这 里 定义 span 为 对 某 个 单词 创建 相关 样本 
时 会 使 用 到 的 单词 数量 ,包括 目标 单词 本 身 和 它 前 后 的 单词 ， 因 此 
span=2*skip_window+1。 并 创建 一 个 最 大 容量 为 span 的 deque， 即 双向 队 
列 ， 在 对 deque 使 用 append 方 法 添加 变量 时 ， 只 会 保留 最 后 插入 的 span 个 


[=] 


变量 。 
data_index = 6 


def generate batch(batch size, num skips, skip window): 
global data index 
assert batch size % num_skips == 6 
assert num skips <= 2 * skip window 
batch = np.ndarray(shape=(batch size), dtype=np.int32) 
labels = np.ndarray(shape=(batch size, 1), dtype=np.int32) 
span = 2 * skip window + 1 


buffer = collections.deque(maxlen=span) 


接 下 来 从 序号 data_index 开 始 ， 把 span 个 单词 顺序 读 入 buffer 作 为 初始 
值 。 因 为 buffer 是 容量 为 span 的 deque， 所 以 此 时 buffer 已 填充 满 ， 后 续 数 
据 将 替换 掉 前 面 的 数据 。 然 后 我 们 进入 第 一 层 循环 (RAN 
batch_size/num_skips) ， 每 次 循环 内 对 一 个 目标 单词 生成 样本 。 现 在 
buffer 中 是 目标 单词 和 所 有 相关 单词 ， 我 们 定义 target=skip_window， 即 
buffer 中 第 skip_window 个 变量 为 目标 单词 。 然 后 定义 生成 样本 时 需要 避免 


的 单词 列表 targets_to_avoid， 这 个 列表 一 开始 包括 第 skip_window 个 单词 

( 即 目标 单词 ) ， 因 为 我 们 要 预测 的 是 语 境 单词 ， 不 包括 目标 单词 本 
身 。 接 下 来 进入 第 二 层 循环 (次 数 为 num_skips) ， 每 次 循环 中 对 一 个 语 
境 单词 生成 样本 ， 先 产生 随机 数 ， 直 到 随机 数 不 在 targets_to_avoid 中 ， 代 
表 可 以 使 用 的 语 境 单词 ， 然 后 产生 一 个 样本 ，feature 即 目标 词汇 
buffer[skip_window]，label 则 是 buffer[targetl。 同 时 ， 因 为 这 个 语 境 单词 被 
使 用 了 ， 所 以 再 把 它 添加 到 targets_to_avoid 中 过 滤 。 在 对 一 个 目标 单词 生 
成 完 所 有 样本 后 (num_skips 个 样本 ) ， 我 们 再 读 入 下 一 个 单词 (同时 会 
抛 掉 buffer 中 第 一 个 单词 ) ， 即 把 滑 窗 向 后 移动 一 位 ， 这 样 我 们 的 目标 单 
词 也 向 后 移动 了 一 个 ， 语 境 单词 也 整体 后 移 了 ， 便 可 以 开始 生成 下 一 个 
目标 单词 的 训练 样本 。 两 层 循环 完成 后 ， 我 们 已 经 获得 了 batch_size 个 训 
练 样 本 ， 将 batch 和 1labels 作 为 函数 结果 返回 。 


for _ in range(span): 
buffer .append(data[data_index]) 
data_index = (data_index + 1) % len(data) 
for i in range(batch_size // num_skips): 
target = skip window 
targets to avoid = [ skip window ] 
for j in range(num_skips): 
while target in targets to avoid: 
target = random.randint(@, span - 1) 
targets_to_avoid.append(target) 
batch[i * num_skips + j] = buffer[skip window] 
labels[i * num_skips + j, 9] = buffer[target] 
buffer .append(data[data_index]) 
data_index = (data_index + 1) % len(data) 


return batch, labels 
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batch_size 设 为 8 ，num_skips 设 为 2 ，skip_window 设 为 1， 然 后 执行 
generate_batch 并 获得 batch 和 1labels。 再 打印 batch 和 1labels 的 数据 ， 可 以 看 
到 我 们 生成 的 样本 是 “3084 originated -> 5235 anarchism”, “3084 originated 
-> 12 as”, “12 as -> 3084 originated” 等 。 以 第 一 个 样本 为 例 ，3084 是 目标 


单词 originated 的 编号 ， 这 个 单词 对 应 的 语 境 单 词 是 anarchism， 其 编号 为 
52350 


batch, labels = generate_batch(batch_size=8, num_skips=2, skip _window=1) 
for i in range(8): 
print(batch[i], reverse _dictionary[batch[i]], '->', labels[i, 6], 


reverse dictionary[labels[i, 8]]) 


我 们 定义 训练 时 的 batch_size A 128; embedding_size 为 128 , 
embedding_size 即 将 单词 转 为 稠密 向 量 的 维度 ， 一 般 是 50~1000 这 个 范围 
内 的 值 ， 这 里 使 用 128 作 为 词 向 量 的 维度 ; skip_window 即 前 面 提 到 的 单 
词 间 最 远 可 以 联系 的 距离 ， 设 为 1; num_skips 即 对 每 个 目标 单词 提取 的 样 
本 数 ， 设 为 2。 然 后 我 们 再 生成 验证 数据 valid_examples， 这 里 随机 抽取 一 
些 频数 最 高 的 单词 ， 看 向 量 空间 上 跟 它 们 最 近 的 单词 是 否 相 关 性 比较 
高 。valid_size=16 指 用 来 抽取 的 验证 单词 数 ，valid_window=100 是 指 验 证 
单词 只 从 频数 最 高 的 100 个 单词 中 抽取 ， 我 们 使 用 np.random.choice 遂 数 进 
行 随机 抽取 。 而 num_sampled 是 训练 时 用 来 做 负 样 本 的 噪声 单词 的 数量 。 


batch_size = 128 
embedding size = 128 
skip window = 1 


num_skips = 2 


valid_size = 16 
valid window = 100 
valid_examples = np.random.choice(valid window, valid size, replace=False) 


num_sampled = 64 


下 面 就 开始 定义 Skip-Gram Word2Vec 模 型 的 网 络 结构 。 我 们 先 创建 
一 个 tt.Graph 并 设置 为 默认 的 graph。 然 后 创建 训练 数据 中 inputs 和 1labels 的 
placeholder, ， 同 时 将 前 面 随机 产生 的 valid_examples 转 为 TensorFlow 中 的 
constant。 接 下 来 ， 先 使 用 with tt.device(Vcpu:0) 限 定 所 有 计算 在 CPU 上 执 
行 ， 因 为 接 下 去 的 一 些 计算 操作 在 GPU 上 可 能 还 没有 实现 。 然 后 使 用 
tf.random_uniform 随 机 生成 所 有 单词 的 词 向 量 embeddings， 单 词 表 大 小 为 
50000 ， 向 量 维 度 为 128 ， 再 使 用 tf.nn.embedding lookup 查找 输入 


train_inputs 对 应 的 向 量 embed。 下 面 使 用 之 前 提 到 的 NCE Loss 作 为 训练 的 
优化 目标 ， 我 们 使 用 tf.truncated_normal 初 始 化 NCE Loss 中 的 权重 参数 
nce_weights， 并 将 其 nce_biases 初 始 化 为 0。 最 后 使 用 tf.nn.nce_loss 计 算 学 
习 出 的 词 向 量 embedding 在 训练 数据 上 的 loss， 并 使 用 tf.reduce_mean 进 行 


汇 总 ej 


graph = tf.Graph() 
with graph.as_default(): 


train_inputs = tf.placeholder(tf.int32, shape=[batch_size]) 
train_labels = tf.placeholder(tf.int32, shape=[batch_size, 1]) 
valid dataset = tf.constant(valid_examples, dtype=tf.int32) 


with tf.device('/cpu:@'): 
embeddings = tf.Variable( 


tf.random_uniform([vocabulary_size, embedding size], -1.0, 1.@)) 


embed = tf.nn.embedding lookup(embeddings, train_inputs) 


nce_weights = tf.Variable( 
tf.truncated_normal([vocabulary_size, embedding size], 
stddev=1.@ / math.sqrt(embedding size) )) 


nce_biases = tf.Variable(tf.zeros([vocabulary_size])) 


loss = tf.reduce_mean(tf.nn.nce_loss(weights=nce_ weights, 
biases=nce_biases, 
labels=train_labels, 
inputs=embed, 
num_sampled=num_sampled, 


num_classes=vocabulary_size) ) 
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embeddings 的 L2 范 数 norm， 再 将 embeddings 除 以 其 L2 范 数 得 到 标准 化 后 
的 normalized_embeddings。 再 使 用 tf.nn.embedding_lookup 查 询 验 证 单词 的 


骨 入 向 量 ， 并 计算 验证 单词 的 佣 入 向 量 与 词汇 表 中 所 有 单词 的 相似 性 。 
最 后 ， 我 们 使 用 tt.global_variables_initializer 初 始 化 所 有 模型 参数 。 


optimizer = tf.train.GradientDescentOptimizer(1.0).minimize(loss) 


norm = tf.sqrt(tf.reduce_sum(tf.square(embeddings), 1, keep _dims=True) ) 
normalized_embeddings = embeddings / norm 
valid_embeddings = tf.nn.embedding lookup( 
normalized_embeddings, valid dataset) 
Similarity = tf.matmul( 


valid_embeddings, normalized_embeddings, transpose _b=True) 


init = tf.global_ variables initializer() 


我 们 定义 最 大 的 迭代 次 数 为 10 万 次 ， 然 后 创建 并 设置 默认 的 
session ， 并 执行 参数 初始 化 。 在 每 一 步 训 练 迭 代 中 ， 先 使 用 
generate_batch 生成 一 个 batch 的 inputs 和]abels 数 据 ， 并 用 它们 创建 
feed_dict。 然 后 使 用 session.run0 执 行 一 次 优化 器 运算 ( 即 一 次 参数 更 新 ) 
和 损失 计算 ， 并 将 这 一 步 训练 的 loss 昧 积 到 average_loss。 


num_steps = 100001 


with tf.Session(graph=graph) as session: 
init.run() 


print("Initialized" ) 


average loss = 6 
for step in range(num_steps): 
batch_inputs, batch_labels = generate_batch( 
batch_size, num_skips, skip window) 


feed dict = {train_inputs : batch_inputs, train_labels : batch _labels} 


_, loss_val = session.run([optimizer, loss], feed _dict=feed_dict) 


average loss += loss val 


之 后 每 2000 次 循环 , 计算 一 下 平均 loss 并 显示 出 来 。 


if step % 2000 == ð: 
if step > 0: 
average loss /= 2000 
print("Average loss at step ", step, ": ", average loss) 


average_loss = 6 


每 10000 次 循环 ， 计 算 
个 验证 单词 最 相似 的 8 个 单词 展示 出 来 。 


if step % 10000 == @: 
sim = similarity.eval() 
for i in range(valid_size): 
valid word = reverse dictionary[valid_examples[i]] 
top_k = 8 
nearest = (-sim[i, :]).argsort()[1:top_k+1] 


log str = "Nearest to %s:" % valid_word 


for k in range(top_k): 
close word = reverse_dictionary[nearest[k]] 
log str = "%s %s," % (log str, close word) 
print(log str) 


final_embeddings = normalized _embeddings.eval() 


次 验证 单词 与 全 部 单词 的 相似 度 ， 并 将 与 


人 一 


母 


以 下 为 展示 出 来 的 平均 损失 ， 以 及 与 验证 单词 相似 度 最 高 的 单词 ， 
可 以 看 到 我 们 训练 的 模型 对 名 词 、 动 词 、 形 容 词 等 类 型 的 单词 的 相似 词 
汇 的 识别 都 非常 准确 。 因 此 由 Skip-Gram Word2Vec 得 到 的 向 量 空间 表达 

(Vector Representations) 是 非常 高 质量 的 ， 近 义 词 在 向 量 空间 上 的 位 置 


也 是 非常 靠近 的 。 


Average loss at step 92000 : 4.70622572589 

Average loss at step 94000 : 4.61680726242 

Average loss at step 96000 : 4.739458390989 

Average loss at step 98000 : 4.63924189049 

Average loss at step 100000 : 4.67957950294 

Nearest to five: six, four, seven, eight, three, zero, two, nine, 

Nearest to state: government, amalthea, habsburg, asparagales, cegep, barrac 

uda, dasyprocta, connecticut, 

Nearest to over: three, reginae, from, replace, trapezohedron, around, brine, 
LG, 

Nearest to were: are, have, had, was, while, been, be, wct, 

Nearest to at: in, on, mitral, agouti, triglycerides, excerpts, during, with 
in, 

Nearest to called: agouti, akita, homeworld, layouts, dasyprocta, UNK, cegep, 
referred, 

Nearest to about: disclosed, antimatter, vec, advocated, surgeries, defiance, 
disband, legionnaire, 

Nearest to which: that, this, gollancz, but, what, also, it, and, 

Nearest to three: four, five, six, two, seven, eight, iit, nine, 

Nearest to that: which, however, what, this, when, gollancz, but, ramps, 
Nearest to new: nonviolent, aquila, assyrian, gardening, local, charcot, sub 
sistence, ssbn, 


Nearest to eight: seven, six, nine, four, five, zero, three, mitral, 


Nearest to no: any, thaler, boiled, gyroscopic, pontificia, grist, occupies, 
michelob, 

Nearest to UNK: cebus, agouti, cegep, dasyprocta, mitral, reginae, callithri 
X, microcebus, 

Nearest to used: referred, known, written, found, dasyprocta, able, shown, m 
itral, 


Nearest to up: out, them, him, passes, eat, pianos, gaku, off, 


下 面 定 义 一 个 用 来 可 视 化 word2Vec 效 果 的 函数 。 这 里 low_dim_embs 
是 降 维 到 2 维 的 单词 的 空间 向 量 ， 我 们 将 在 图 表 中 展示 每 个 单词 的 位 置 。 
我 们 使 用 plt.scatter (一 般 将 matplotlib.pyplot 命 名 为 plt) 显示 散 点 图 ( 单 


词 的 位 置 ) ， 并 用 plt.annotate 展 示 单 词 本 身 。 同 时 ， 使 用 plt.savefig 保 存 
图 片 到 本 地 文件 。 


def plot with labels(low dim embs, labels, filename='tsne.png'): 
assert low_dim_embs.shape[@] >= len(labels), "More labels than embeddings” 
plt.figure(figsize=(18, 18)) 
for i, label in enumerate(labels): 
x, y = low dim embs[i,:] 
plt.scatter(x, y) 
plt.annotate(label, 
xy=(x, y), 
xytext=(5, 2), 
textcoords='offset points', 
ha='right', 


va='bottom' ) 
plt.savefig(filename) 


我 们 使 用 sklearn.manifold.TSNE 实 现 降 维 ， 这 里 直接 将 原始 的 128 维 
的 佣 入 向 量 降 到 2 维 ， 再 用 前 面 的 plot_with_labels 国 数 进行 展示 。 这 里 只 
展示 词 频 最 高 的 100 个 单词 的 可 视 化 结果 。 


from sklearn.manifold import TSNE 
import matplotlib.pyplot as plt 


tsne = TSNE(perplexity=30, n_components=2, init='pca', n_iter=5000) 


plot_only = 100 
low dim embs = tsne.fit_transform(final_embeddings[ :plot_only, :]) 
labels = [reverse dictionary[i] for i in range(plot_only) ] 


plot_with_labels(low_dim_embs, labels) 


图 7-3 所 示 即 为 可 视 化 效果 ， 可 以 看 到 其 中 距离 相近 的 单词 在 语义 上 
具有 很 高 的 相似 性 。 例 如 ， 左 上 角 为 单个 字母 的 聚集 地 ; 而 冠 词 the、 
an、a 和 another 则 聚集 在 左边 中 部 ， 稍 微 靠 右 一 点 则 有 him、 himself, 
its、itself 和 them 聚 集 ; 左下 方 有 wil、could、would、then。 这 里 我 们 只 
展示 了 部 分 截图 ， 感 兴趣 的 读者 可 以 在 程序 男 出 来 的 大 图 中 进行 观察 。 
对 Word2Vec 性 能 的 评价 ， 除 了 可 视 化 观察 ， 常 用 的 方式 还 有 Analogical 
Reasoning ， 即 直接 预测 语义 、 语 境 上 的 关系 ， 例 如 让 模型 回答 “king is 
queen as father is to _ ”这 类 问题 。Analogical Reasoning 可 以 比较 好 地 评测 
Word2Vec 模 型 的 准确 性 。 在 训练 Word2Vec 模 型 时 ， 为 了 获得 比较 好 的 结 
果 ， 我 们 可 以 使 用 大 规模 的 语料库 ， 同 时 需要 对 参数 进行 调试 ， 选 取 最 
适合 的 值 。 
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图 7-3 TSNE 降 维 后 的 Word2Vec 的 嵌入 向 量 可 视 化 图 


7.2 ”TensorFlow 实 现 基于 LSTM 的 语言 模型 


循环 神经 网 络 出 现 于 20 世 纪 80 年 代 ， 在 其 发 展 早期 ， 应 用 不 是 特别 
丰富 。 最 近 几 年 由 于 神经 网 络 结构 的 进步 和 GPU 上 深度 学 习 训练 效率 的 
突破 ，RNN 变 得 越 来 越 流 行 。RNN 对 时 间 序 列 数据 非常 有 效 ， 其 每 个 神 
经 元 可 通过 内 部 组 件 保 存 之 前 输入 的 信息 。 

人 每 次 思考 时 不 会 重头 开始 ， 而 是 保留 之 前 思考 的 一 些 结 果 为 现在 
的 决策 提供 支持 。 例 如 我 们 对 话 时 ， 我 们 会 根据 上 下 文 的 信息 理解 一 句 
话 的 含义 ， 而 不 是 对 每 一 句 话 重 头 进 行 分 析 。 传 统 的 神经 网 络 不 能 实现 
这 个 功能 ， 这 可 能 是 其 一 大 缺陷 。 例 如 卷 积 神经 网 络 虽 然 可 以 对 图 像 进 
行 分 类 ， 但 是 可 能 无 法 对 视频 中 每 一 帧 图 像 发 生 的 事情 进行 关联 分 析 ， 
我 们 无 法 利用 前 一 帧 图 像 的 信息 ， 而 循环 神经 网 络 则 可 以 解决 这 个 问 
题 。RNN 的 结构 如 图 7-4 所 示 ， 其 最 大 特点 是 神经 元 的 某 些 输出 可 作为 其 
输入 再 次 传输 到 神经 元 中 ， 因 此 可 以 利用 之 前 的 信息 。 


图 7-4 ”循环 神经 网 络 示例 


如 图 7-4 所 示 ，x 是 RNN 的 输入 ，A 是 RNN 的 一 个 节点 ， 而 h 是 输 
出 。 我 们 对 这 个 RNN 输 入 数据 x, ， 然 后 通过 网 络 计算 并 得 到 输出 结果 h ， 
再 将 某 些 信息 (state, AS) 传 到 网 络 的 输入 。 我 们 将 输出 h 与 label 进 行 
比较 可 以 得 到 误差 ， 有 了 这 个 误差 之 后 ， 就 能 使 用 梯度 下 降 (Gradient 
Descent) 和 Back-Propagation Through Time (BPTT) 方法 对 网 络 进 行 训 
练 ，BPTT 与 训练 前 馈 神经 网 络 的 传统 BP 方法 类 似 ， 也 是 使 用 反 向 传播 求 
解 梯度 并 更 新 网 络 参 数 权 重 。 另 外 ， 还 有 一 种 方法 叫 Real-Time Recurrent 
Learning (RTRL) ， 它 可 以 正 向 求解 梯度 ， 不 过 其 计算 复杂 度 比 较 高 。 
此 外 ， 还 有 介 于 BPTT 和 RITRL 这 两 种 方法 之 间 的 混合 方法 ， 可 用 来 缓解 
因为 时 间 序 列 间隔 过 长 带 来 的 梯度 弥散 的 问题 。 


如 果 我 们 将 RNN 中 的 循环 展开 成 一 个 个 串联 的 结构 ， 如 图 7-5 所 示 ， 
就 可 以 更 好 地 理解 循环 神经 网 络 的 结构 了 。RNN 展 开 后 ， 类 似 于 有 一 系 
列 输入 x 和 一 系列 输出 h 的 串联 的 普通 神经 网 络 ， 上 一 层 的 神经 网 络 会 传 
递 信息 给 下 一 层 。 这 种 串联 的 结构 天 然 就 非常 适合 时 间 序 列 数据 的 处 理 
和 分 析 。 需 要 注意 的 是 ， 展 开 后 的 每 一 个 层级 的 神经 网 络 ， 其 参数 都 是 
相同 的 ， 我 们 并 不 需要 训练 成 百 上 千 层 神经 网 络 的 参数 ， 只 需要 训练 一 
层 RNN 的 参数 ， 这 就 是 它 结 构 巧 妙 的 地 方 ， 这 里 共享 参数 的 思想 和 卷 积 
网 络 中 权 值 共享 的 方式 也 很 类 似 。 


图 7-5 ”循环 神经 网 络 展开 示意 图 


RNN 虽 然 被 设计 成 可 以 处 理 整 个 时 间 序 列 信息 ， 但 是 其 记忆 最 深 的 
还 是 最 后 输入 的 一 些 信号 。 而 更 早 之 前 的 信号 的 强度 则 越 来 越 低 ， 最 后 
只 能 起 到 一 点 辅助 的 作用 ， 即 决定 RNN 输 出 的 还 是 最 后 输入 的 一 些 信 
号 。 这 样 的 缺陷 导致 RNN 在 早期 的 作用 并 不 明显 ， 慢 慢 痰 出 了 大 家 的 视 
野 。 而 后 随 着 Long Sort Term Memory (LSTM) 7 的 发 现 ， 循 环 神经 网 络 
重新 回 到 了 大 家 的 视野 ， 并 逐渐 在 众多 领域 取得 了 很 大 的 成 功 和 突破 ， 
包括 语音 识别 、 文 本 分 类 、 语 言 模型 、 自 动 对 话 、 机 器 翻译 、 图 像 标 注 
等 领域 。 

对 于 某 些 简单 的 问题 ， 可 能 只 需要 最 后 输入 的 少量 时 序 信息 即 可 解 
决 。 但 对 某 些 复杂 问题 ， 可 能 需要 更 早 的 一 些 信息 ， 甚 至 是 时 间 序 列 开 
头 的 信息 ， 但 间隔 太 远 的 输入 信息 ，RNN 是 难以 记忆 的 ， 因 此 长 程 依赖 

(Long-term Dependencies) 是 传统 RNN 的 致命 伤 。LSTM 由 Schmidhuber 
教授 于 1997 年 提出 ， 它 天 生 就 是 为 了 解决 长 程 依赖 而 设计 的 ， 不 需要 特 
别 复 杂 地 调试 超 参数 ， 默 认 就 可 以 记 住 长 期 的 信息 。LSTM 的 内 部 结构 相 
比 RNN 更 复杂 ， 如 图 7-6 所 示 ， 其 中 包含 了 4 层 神 经 网 络 ， 其 中 小 圆圈 是 
point-wise 的 操作 ， 比 如 向 量 加 法 、 点 乘 等 ， 而 小 矩形 则 代表 一 层 可 学 习 
参数 的 神经 网 络 。LSTM 单 元 上 面 的 那 条 直线 代表 了 LSTM 的 状态 state， 
它 会 贯穿 所 有 串联 在 一 起 的 LSTM 单 元 ， 从 第 一 个 LSTM 单 元 一 直流 向 最 


后 一 个 LSTM 单 元 ， 其 中 只 有 少量 的 线性 干预 和 改变 。 状 态 state 在 这 条 隧 
道中 传递 时 ，LSTM 单 元 可 以 对 其 添加 或 删 减 信 息 ， 这 些 对 信息 流 的 修改 
操作 由 LSTM 中 的 Gates 控 制 。 这 些 Gates 中 包含 了 一 个 Sigmoid 层 和 一 个 向 
量 点 乘 的 操作 ， 这 个 Sigmoid 层 的 输出 是 0 到 1 之 间 的 值 ， 它 直接 控制 了 信 
息 传递 的 比例 。 如 果 为 0 代表 不 允许 信息 传递 ， 为 1 则 代表 让 信息 全 部 通 
过 。 每 个 LSTM 单 元 中 包含 了 3 个 这 样 的 Gates， 用 来 维护 和 控制 单元 的 状 
态 信息 。 人 和 凭借 对 状态 信息 的 储存 和 修改 ，LSTM 单 元 就 可 以 实现 长 程 记 
Zo 


| | 


图 7-6 LSTM 结 构 示 意图 


在 RNN 的 各 种 变种 中 ， 除 了 LSTM， 另 一 个 非常 流行 的 网 络 结构 是 
Gated Recurrent Unit (GRU) 。GRU 的 结构 如 图 7-7 所 示 ， 相 比 LSTM， 其 
结构 更 加 简单 ， 比 LSTM 减 少 了 一 个 Gate， 因 此 计算 效率 更 高 (每 个 单元 
每 次 计算 时 可 节约 几 个 和 矩阵 运算 操作 ) ， 同 时 占用 的 内 存 也 相对 较 少 。 
在 实际 使 用 中 ，LSTM 和 GRU 的 差异 不 大 ， 一 般 最 后 得 到 的 准确 率 指标 等 
都 近似 ， 但 是 相对 来 说 ，GRU 达 到 收敛 状态 时 所 需要 的 迭代 数 更 少 ， 也 
可 以 说 是 训练 速度 更 快 。 


(a) Long Short-Term Memory (b) Gated Recurrent Unit 


Illustration of (a) LSTM and (b) gated recurrent units. (a) i, f and o are the input, forget 
and output gates, respectively. c and ¢ denote the memory cell and the new memory cell content. (b) 
r and z are the reset and update gates, and h and h are the activation and the candidate activation. 


图 7-7 LSTM 和 GRU 的 结构 


循环 神经 网 络 的 应 用 非常 广 ， 不 过 用 的 最 多 的 地 方 还 是 自然 语言 处 
理 。 用 RNN 训 练 出 的 语言 模型 (Language Modeling) ， 其 效果 令 人 惊 
叹 。 我 们 可 以 输入 大 量 莎 士 比 亚 的 剧本 文字 等 信息 给 RNN， 训 练 得 到 的 
语言 模型 可 以 模仿 莎士比亚 的 文字 ， 自 动 生 成 类 似 的 诗歌 、 剧 本 。 下 面 
的 英文 为 语言 模型 生成 的 沙 翁 的 诗歌 ， 可 以 说 是 非常 逼真 ， 几 乎 可 以 以 
假 乱 真 。 


PANDARUS: 

Alas,I think he shall be come approached and the day 
When little srain would be attain'd into being never fed, 
And who is but a chain and subjects of his death, 

I should not sleep. 

Second Senator: 

They are away this miseries,produced upon my soul, 
Breaking and strongly should be buried,when I perish 
The earth and thoughts of many states. 

DUKE VINCENTIO: 

Well, your wit is in the care of side and that. 

Second Lord: 

They would be ruled after this chamber,and 

my fair nues begun out of the fact,to be conveyed, 
Whose noble souls I'll have the heart of the wars. 
Clown: 

Come,sir,I will make did behold your worship. 
VIOLA: 

I'll drink it. 


语言 模型 是 NLP 中 非常 重要 的 一 个 部 分 ， 同 时 也 是 语音 识别 、 机 器 
翻译 和 由 图 片 生 成 标题 等 任务 的 基础 和 关键 。 语 言 模 型 是 一 个 可 以 预测 
语句 的 概率 模型 。 给 定 上 文 的 语 境 ， 即 历史 出 现 的 单词 ， 语 言 模型 可 以 


预测 下 一 个 单词 出 现 的 概率 。Penn Tree Bank (PTB) 是 在 语言 模型 训练 
中 经 常 使 用 的 一 个 数据 集 ， 它 的 质量 比较 高 ， 可 以 用 来 评测 语言 模型 的 
准确 率 ， 同 时 数据 集 不 大 ， 训 练 也 比较 快 。 下 面 我 们 就 使 用 LSTM 来 实现 
一 个 语言 模型 ， 其 网 络 结构 来 自 论 文 Recurrent Neural Network 
Regularization 。 


首先 ， 我 们 下 载 PTB 数 据 集 并 解 讨 ， 确 保 解 讨 后 的 文件 路 径 和 接 下 来 
Python 的 执行 路 径 一 致 。 这 个 数据 集中 已 经 做 了 一 些 预 处 理 ， 它 包含 1 万 
个 不 同 的 单词 ， 有 句 尾 的 标记 ， 同 时 将 罕见 的 词汇 统一 处 理 为 特殊 字 
符 。 本 节 代 码 主 要 来 自 TensorFlow 的 开源 实现 2 。 


wget http://www. fit.vutbr.cz/~imikolov/rnnim/simple-examples.tgz 


tar xvf simple-examples.tgz 


我 们 下 载 TensorFlow Models 库 ， 并 进入 目录 models/tutorials/rnn/ptb。 
然后 载 入 常用 的 库 ， 和 TensorFlow Models 中 的 PTB reader， 借 助 它 读 取 数 
据 内 容 。 读 取 数 据 内 容 的 操作 比较 烦琐 ， 主 要 是 将 单词 转 为 唯一 的 数字 
编码 ， 以 便 神经 网 络 处 理 。 这 部 分 实现 的 细节 我 们 不 做 讲解 ， 感 兴趣 的 
读者 可 以 阅读 其 源码 。 


git clone https://github.com/tensorflow/models.git 
cd models/tutorials/rnn/ptb 

import time 

import numpy as np 

import tensorflow as tf 


import reader 


下 面 定 义 语言 模型 处 理 输入 数据 的 class，PTBInput。 其 中 只 有 一 个 
初始 化 方法 _init_0， 我 们 读 取 参 数 config 中 的 batch_size、num_steps 到 
本 地 变量 ， 这 里 num steps 是 LSTM 的 展开 步 数 (unrolled steps of 
LSTM) 。 然 后 计算 每 个 epoch 的 size， 即 每 个 epoch 内 需要 多 少 轮 训练 的 
迭代， 可 以 通过 将 数据 长 度 整除 batch_size 和 num_steps 得 到 。 我 们 使 用 
reader.ptb_producer 获 取 特 征 数据 input_data， 以 及 label 数 据 targets， 这 里 的 
input_data 和 targets 都 已 经 是 定义 好 的 tensor 了 ， 每 次 执行 都 会 获取 一 个 
batch 的 数据 。 


class PTBInput(object): 


def _init__(self, config, data, name=None): 
self.batch_size = batch_size = config.batch_size 
self.num_steps = num_steps = config.num_steps 


self.epoch_size = ((len(data) // batch_size) - 1) // num_steps 


self.input_data, self.targets = reader.ptb_producer( 


data, batch_size, num_steps, name=name) 


接着 定义 语言 模型 的 class，PTBModel。 首 先 依然 是 初始 化 函数 
_init_0， 其 中 包含 三 个 参数 ， 训 练 标 记 is_training、 配 置 参数 config， 以 
及 PTBInput 类 的 实例 input_。 我 们 读 取 input_ Tobari size 和 num_steps， 
然后 读 取 config 中 的 hidden_size、vocab_size 到 本 地 变量 。 这 里 hidden_size 
是 LSTM 的 节点 数 ，vocab_size 是 词汇 表 的 大 小 。 


class PTBModel(object): 


def _ init__(self, is_training, config, input_): 


self._input = input_ 


batch_size = input_.batch_size 
num_steps = input_.num_steps 
Size = config.hidden_size 


vocab_size = config.vocab_size 


接 下 来 使 用 tt.contrib.rnn.BasicLSTMCel 设 置 我 们 默认 的 LSTM 单 元 ， 
其 中 隐 含 节点 数 为 前 面 提 取 的 hidden_size ，forget_bias 〈 即 forget gate 的 
bias ) TH state_is_tuple 也 为 True， 这 代表 接受 和 返回 的 state 将 是 2-tuple 
的 形式 。 同 时 ， 如 果 在 训 ee 的 keep_prob 小 于 1， 则 在 前 面 
的 lstm_cell 之 后 接 一 个 Dropout 层 ， 这 里 的 做 法 是 调用 
et or ee KR a R 后 E A RNN IE & RR 
tf.contrib.rnn.MultiRNNCell§g 80 M418 Ilstm_cel 2 REZ cel, HEB 
次 数 为 config 中 的 num_layers， 这 里 同样 将 state_is_tuple 设 为 True， 并 用 
cell.zero_state 设 置 LSTM 单 元 的 初始 化 状态 为 0。 这 里 需要 注意 ，LSTM 单 


元 可 以 读 入 一 个 单词 并 结合 之 前 储存 的 状态 state 计 算 下 一 个 单词 出 现 的 概 
率 分 布 ， 并 且 每 次 读 取 一 个 单词 后 它 的 状态 state 会 被 更 新 。 


def lstm cell(): 
return tf.contrib.rnn.BasicLSTMCell( 
size, forget bias=0.0, state is tuple=True) 
attn_cell = lstm cell 
if is training and config.keep prob < 1: 
def attn_cell(): 


return tf.contrib.rnn.DropoutWrapper ( 


lstm cell(), output_keep_prob=config.keep_prob) 
cell = tf.contrib.rnn.MultiRNNCell( 


[attn_cell() for _ in range(config.num layers)]， 


state is tuple=True) 
self. initial state = cell.zero_state(batch_size, tf.float32) 


FX (1) B15 Dd 28 BY ia] BR Aembedding 2853, embedding Bf 79 4¥ one-hot BY 
编码 格式 的 单词 转化 为 向 量 表达 形式 ， 在 7.1 节 Word2Vec 中 已 经 讲 到 了 。 
因为 这 部 分 在 GPU 中 还 没有 很 好 的 实现 ， 所 以 我 们 依然 使 用 with 
tf.device("/cpu:0") 将 计算 限定 在 CPU 中 进行 。 然 后 我 们 初始 化 embedding 矩 
阵 ， 其 行 数 设 为 词汇 表 数 vocab_size， 列 数 ( 即 每 个 单词 的 向 量 表达 的 维 
数 ) 设 为 hidden_size， 和 LSTM 单 元 中 的 隐 含 节点 数 一 致 。 在 训练 过 程 
中 ， embedding 的 参数 可 以 被 优化 和 更 新 。 接 下 来 使 用 
tf.nn.embedding_lookup 查 询 单词 对 应 的 向 量 表达 获得 inputs。 同 时 ， 如 果 
为 训练 状态 则 再 添加 上 一 层 Dropout。 


with tf.device("/cpu:0"): 
embedding = tf.get_variable( 
"embedding", [vocab_size, size], dtype=tf.float32) 
inputs = tf.nn.embedding lookup(embedding, input_.input_data) 


if is training and config.keep_prob < 1: 


inputs = tf.nn.dropout(inputs, config.keep_prob) 


接 下 来 定义 输出 outputs， 我 们 先 使 用 tf.variable_scope 将 接 下 来 的 操作 
的 名 称 设 为 RNN。 一 般 为 了 控制 训练 过 程 ， 我 们 会 限制 梯度 在 反 向 传播 
时 可 以 展开 的 步 数 为 一 个 固定 的 值 ， 而 这 个 步 数 也 就 是 num_steps。 这 里 
我 们 设置 一 个 循环 ， 循 环 长 度 为 num_steps， 来 控制 梯度 的 传播 。 并 且 从 
第 2 次 循环 开始 ， 我 们 使 用 tt.get_varible_scope.reuse_variables 设 置 复 用 变 
量 。 在 每 次 循环 内 ， 我 们 传 入 inputs 和 state 到 堆 芭 的 LSTM 单 元 〈 即 cell) 
中 。 这 里 注意 inputs 有 3 个 维度 ， 第 1 个 维度 代表 是 batch 中 的 第 几 个 样本 ， 
第 2 个 维度 代表 是 样本 中 的 第 几 个 单词 ， 第 3 个 维度 是 单词 的 向 量 表达 的 
维度 ， 而 inputs[:,time_step,:] 代 表 所 有 样本 的 第 time_step 个 单词 。 这 里 我 
们 得 到 输出 cell_output 和 更 新 后 的 state。 最 后 我 们 将 结果 cell_output 添 加 到 
输出 列表 outputs。 


outputs = [] 


state = self. _initial_state 


with tf.variable scope("RNN"): 
for time_step in range(num_steps): 
if time_step > 6: tf.get_variable_scope().reuse_variables() 
(cell_output, state) = cell(inputs[:, time_step, :], state) 
outputs.append(cell_ output) 


我 们 将 output 的 内 容 用 tf.concat 串 接 到 一 起 ， 并 使 用 tf.reshape 将 其 转 
为 一 个 很 长 的 一 维 向 量 。 接 下 来 是 Softmax 层 ， 先 定义 权重 softmax_w 和 偏 
置 softmax_b， 然 后 使 用 tf.matmul 将 输出 output 乘 上 权重 并 加 上 偏 置 得 到 
logits ， 即 网 络 最 后 的 输出 。 然 后 定义 损失 loss ， 这 里 直接 使 用 
tf.contrib.legacy_seq2sed.sequence_loss_by_example 计 算 输 出 logits 和 targets 
的 偏差 ， 这 里 的 sequence_loss Bf) target words 的 average negative log 
probability， 其 定义 为 10ss = -ŽEN IN Prargeti 0 然后 使 用 tftreduce_sum 汇 总 
batch 的 误差 ， 再 计算 平均 到 每 个 样本 的 误差 cost。 并 且 我 们 保留 最 终 的 状 
态 为 final_state。 此 时 ， 如 果 不 是 训练 状态 ， 则 直接 返回 。 


output = tf.reshape(tf.concat(outputs, 1), [-1, size]) 
softmax_w = tf.get_variable( 
"“softmax_w", [size, vocab _size], dtype=tf.float32) 
softmax_b = tf.get_variable("softmax_b", [vocab _size], dtype=tf.float32) 
logits = tf.matmul(output, softmax_w) + softmax_b 
loss = tf.contrib.legacy_seq2seq.sequence_loss_ by _example( 
[logits], 
[tf.reshape(input_.targets, [-1])], 
[tf.ones([batch_size * num_steps], dtype=tf.float32) ]) 
self. cost = cost = tf.reduce_sum(loss) / batch size 


self. _final_state = state 


if not is training: 


return 


下 面 定 义学 习 速 率 的 变量 lr， 并 将 其 设 为 不 可 训练 。 再 使 用 
tf.trainable_variables 获 取 全 部 可 训练 的 参数 tvars。 这 里 针对 前 面 得 到 的 
cost， 计 算 tvars 的 梯度 ， 并 用 tf.clip_by_global_norm 设 置 梯度 的 最 大 范 数 
max_grad_norm。 这 即 是 Gradient Clipping 的 方法 ， 控 制 梯度 的 最 大 范 数 ， 
某 种 程度 上 起 到 正则 化 的 效果 。 Gradient Clipping 可 以 防止 Gradient 
Explosion 梯 度 爆 炸 的 问题 ， 如 果 对 梯度 不 加 限制 ， 则 可 能 会 因为 迭代 中 
梯度 过 大 导致 训练 难以 收敛 。 然 后 定义 优化 器 为 GradientDescent 优 化 恬 。 
再 创建 训练 操作 _train_op， 用 optimizer.apply_gradients 将 前 面 dip 过 的 梯度 
应 用 到 所 有 可 训练 的 参数 twas 上 ， 然 后 使 用 
tf.contrib.framework.get_or_create_global_step 生 成 全 局 统一 的 训练 步 数 。 


self. lr = tf.Variable(@.@, trainable=False) 

tvars = tf.trainable_variables() 

grads, _ = tf.clip by global _norm(tf.gradients(cost, tvars), 
config.max_grad_norm) 

optimizer = tf.train.GradientDescentOptimizer(self._1r) 

self. train op = optimizer.apply_gradients(zip(grads, tvars), 


global_step=tf.contrib.framework.get_or_create_ global step()) 


这 里 设置 一 个 名 为 _new_lr (new learning rate) 的 placeholder 用 以 控制 
学 习 速 率 ， 同 时 定义 操作 _lr_update ， 它 使 用 tf.assign 将 _new_lr 的 值 赋 给 
当前 的 学 习 速 率 _lr。 再 定义 一 个 assign_lr 的 图 数 ， 用 来 在 外 部 控制 模型 的 
学 习 速 率 ， 方式 是 将 学 习 速 率 值 传 入 _new_lr 这 个 placeholder， 并 执行 
_update_lr 操 作 完 成 对 学 习 速 率 的 修改 。 


self. new lr = tf.placeholder( 
tf.float32, shape=[], name="new_learning rate") 


self. lr update = tf.assign(self. lr, self. new 1r) 


def assign lr(self, session, lr_value): 


session.run(self._1lr_update, feed dict={self. new_lr: 1r_value}) 


至 此 ， 模 型 定义 的 部 分 就 完成 了 。 我 们 再 定义 这 个 PTBModel class 的 
一 些 property，Python 中 的 @property 装 饰 器 可 以 将 返回 变量 设 为 只 读 ， 防 
止 修 改变 量 引 发 的 问题 。 这 里 定义 input、initial_state、 cost、final_state、 
lr、train_op 为 property， 方 便 外 部 访问 。 


@property 
def input(self): 


return self. input 


@property 
def initial_state(self): 


return self. initial state 


@property 
def cost(self): 


return self. cost 


@property 
def final_state(self): 


return self. final state 


@property 
def Ir(self): 


return self. Jr 


@property 
def train_op(self): 


return self. train op 


接 下 来 定义 几 种 不 同 大 小 的 模型 的 参数 。 首 先是 小 模型 的 设置 ， 我 
们 先 解 释 各 个 参数 的 含义 ， 这 里 的 init_scale 是 网 络 中 权重 值 的 初始 scale; 
learning_rate 是 学 习 速 率 的 初始 值 ; max_grad_norm 即 前 面 提 到 的 梯度 的 最 
大 范 数 ; num_layers 是 LSTM 可 以 堆 赤 的 层 数 ; num_steps 是 LSTM 梯 度 反 
向 传播 的 展开 步 数 ; hidden_size 是 LSTM 内 的 隐 含 节点 数 ; max_epoch 是 
初始 学 习 速 率 可 训练 的 epoch 数 ， 在 此 之 后 需要 调整 学 习 速 率 ; 
max_max_epoch 是 总 共 可 训练 的 epoch 数 ; keep_prob 是 dropout 层 的 保留 节 
点 的 比例 ; lr_decay 是 学 习 速 率 的 豪 减 速度 ;batch_size 是 每 个 batch 中 样本 
的 数量 。 具 体 每 个 参数 的 值 ， 在 不 同 配 置 中 对 比 才 有 意义 ， 我 们 会 在 接 
下 来 的 几 个 配置 中 讨论 具体 数值 。 


class SmallConfig(object): 
init_scale = @.1 
learning rate = 1.0 
max_grad_norm = 5 
num_layers = 2 
num_steps = 20 


hidden_size = 200 


max_epoch = 4 
max_max_epoch = 13 
keep_prob = 1.0 

lr decay = 6.5 
batch_size = 20 


vocab_size = 10000 


这 里 可 以 看 到 ， 在 MediumConfig 中 型 模型 中 ， 我们 减 小 了 
init_scale， 即 希望 权重 初 值 不 要 过 大 ， 小 一 些 有 利于 瘟 和 的 训练 ， 学 习 速 
率 和 最 大 梯度 范 数 不 变 ，LSTM 层 数 也 不 变 ; 这 里 将 梯度 反 向 传播 的 展开 
步 数 num_steps 从 20 增 大 到 35; hidden_size 和 max_max_epoch 也 相应 地 增 大 
约 3 倍 ; 同时 ， 这 里 开始 设置 dropout 的 keep_prob 到 0.5， 而 之 前 设 为 1 即 没 
有 dropout; 因为 学 习 的 迭代 次 数 增 大 ， 因 此 将 学 习 速 率 的 衰减 速率 
lr_decay 也 减 小 了 ; batch_size 和 词汇 表 vocab_size 的 大 小 都 保持 不 变 。 


class MediumConfig(object): 
init_scale = 0.05 
learning rate = 1.0 
max_grad_norm = 5 
num_layers = 2 
num_steps = 35 
hidden_size = 650 
max_epoch = 6 
max_max_epoch = 39 
keep_prob = @.5 
lr decay = 0.8 
batch_size = 20 
vocab_size = 10000 


LargeConfig 大 型 模型 进一步 缩小 了 init_scale; 并 大 大 放宽 了 最 大 梯 
3G &{ max_grad_norm 到 if ; 同时 将 hidden_size 提 升 到 了 1500， 并 上 且 
max_epoch、max_max_epoch 也 相应 地 增 大 了 ; 而 keep_drop 则 因为 模型 复 
杂 度 的 上 升 继续 下 降 。 学 习 速 率 的 衰减 速率 lr_decay 也 进一步 减 小 。 


class LargeConfig(object): 
init_scale = 0.04 


learning rate = 1.0 
max_grad_norm = 10 
num_layers = 2 
num_steps = 35 
hidden_size = 1500 
max_epoch = 14 
max_max_epoch = 55 
keep_prob = 0.35 
Ir_decay = 1 / 1.15 
batch_size = 20 
vocab_size = 10000 


这 里 的 TestConfig 只 是 为 测试 用 ， 参 数 都 尽量 使 用 最 小 值 ， 只 是 为 了 
测试 可 以 完整 运行 模型 。 


class TestConfig(object): 
init_scale = 0.1 
learning_rate = 1.0 
max_grad_norm = 1 
num_layers = 1 
num_steps = 2 
hidden_size = 2 
max_epoch = 1 
max_max_epoch = 1 
keep_prob = 1.0 
lr_decay = 0.5 
batch_size = 20 


vocab_size = 10000 


下 面 定 义 训练 一 个 epoch 数 据 的 函数 run_epoch。 我 们 记录 当前 时 间 ， 
初始 化 损失 costs 和 和 迭代 数 iters ， 并 执行 model.initial_state 来 初始 化 状态 并 
获得 初始 状态 。 接 着 创建 输出 结果 的 字典 表 fetches， 其 中 包括 cost 和 
final_state, WRAWME(Feval_op, t82—HMMAfetches. HAR HEA 
训练 循环 中 ， 次 数 即 为 epoch_size。 在 每 次 循环 中 ， 我 们 生成 训练 用 的 
feed_dict， 将 全 部 LSTM 单 元 的 state 加 入 feed_dict 中 ， 然 后 传 入 feed_dict 并 
执行 fetches 对 网 络 进行 一 次 训练 ， 并 拿 到 cost 和 state。 这 里 我 们 累加 cost 到 
costs， 并 累加 num_steps 到 iters。 我 们 每 完成 约 10% 的 epoch， 就 进行 一 次 
结果 的 展示 ， 依 次 展示 当前 epoch 的 进度 、perplexity 〈 即 平均 cost 的 自然 
单数 指数 ， 是 语言 模型 中 用 来 比较 模型 性 能 的 重要 指标 ， 越 低 代 表 模 型 
输出 的 概率 分 布 在 预测 样本 上 越 好 ) 和 训练 速度 (单词 数 每 秒 ) 。 最 后 
返回 perplexity 作 为 负数 结果 。 


def run_epoch(session, model, eval_op=None, verbose=False): 
start_time = time.time() 
costs = 0.0 
iters = @ 


state = session.run(model.initial_ state) 


fetches = { 
"cost": model.cost, 
"final_state": model.final_state, 
} 
if eval_op is not None: 


fetches["eval_op"] = eval_op 


for step in range(model.input.epoch_size): 
feed dict = {} 
for i, (c, h) in enumerate(model.initial_ state): 
feed dict[c] = state[i].c 
feed _dict[h] = state[i].h 


vals = session.run(fetches, feed dict) 


cost 


vals["cost" ] 


state = vals["final_state"] 


costs += cost 


iters += model.input.num_steps 
if verbose and step % (model.input.epoch_size // 10) == 10: 
print("%.3f perplexity: %.3f speed: %.0f wps" % 
(step * 1.0 / model.input.epoch_ size, np.exp(costs / iters), 


iters * model.input.batch_size / (time.time() - start_time))) 


return np.exp(costs / iters) 


我 们 使 用 reader.ptb_raw_data 直 接 读 取 解压 后 的 数据 ， 得 到 训练 数 
据 、 验 证 数据 和 测试 数据 。 这 里 定义 训练 模型 的 配置 为 smallConfig， 读 
者 也 可 自行 测试 其 他 大 小 的 模型 。 需 要 注意 的 是 测试 配置 eval_config 需 和 
训练 配置 一 致 ， 这 里 将 测试 配置 的 batch_size 和 num_steps 修 改 为 1。 


raw_data = reader.ptb_raw_data('simple-examples/data/' ) 


train_data, valid_data, test_data, _ = raw_data 


config = SmallConfig() 
eval config = SmallConfig() 
eval _config.batch_size = 1 


eval _config.num_steps = 1 


我 们 创建 默认 的 Graph， 并 使 用 tfrandom_uniform_initializer 设 置 参 数 
的 初始 化 器 ， 令 参数 范围 在 [-init_scale,init_scale] 之 间 。 然 后 使 用 PTBInput 
和 PTBModel 创 建 一 个 用 来 训练 的 模型 m， 以 及 用 来 验证 的 模型 mvalid 和 
测试 的 模型 mtest， 其 中 训练 和 验证 模型 直接 使 用 前 面 的 config， 测 试 模型 
则 使 用 前 面 的 测试 配置 eval_config。 


with tf.Graph().as_default(): 
initializer = tf.random_uniform_initializer(-config.init_scale, 


config.init_scale) 


with tf.name_scope("Train"): 
train_input = PTBInput(config=config, data=train_data,name="TrainInput" ) 
with tf.variable_scope("Model", reuse=None, initializer=initializer): 


m = PTBModel(is_training=True, config=config, input_=train_input) 


with tf.name_scope("Valid"): 
valid_input = PTBInput(config=config,data=valid_data,name="ValidInput" ) 


with tf.variable_scope("Model", reuse=True, initializer=initializer): 


mvalid = PTBModel(is_training=False, config=config, input_=valid_input) 


with tf.name_scope("Test"): 
test_input = PTBInput(config=eval_ config, data=test_data, 
name="TestInput" ) 
with tf.variable_scope("Model", reuse=True, initializer=initializer): 
mtest = PTBModel(is_training=False, config=eval_config, 


input_=test_input) 


我 们 使 用 tttrain.Supervisor0 创建 训练 的 管理 器 swv， 并 使 用 
sv.managed_session 创 建 默认 session， 再 执行 训练 多 个 epoch 数 据 的 循环 。 
在 每 个 epoch 循 环 内 ， 我 们 先 计算 累计 的 学 习 速 率 豪 碱 值 ， 这 里 只 需 计 算 
超过 max_epoch 的 轮 数 ， 再 求 r_decay 的 超出 轮 数 次 蝴 即 可 。 然 后 将 初始 
学 习 速 率 乘 上 累计 的 衰减 ， 并 更 新 学 习 速率 。 然 后 在 循环 内 执行 一 个 
epoch 的 训练 和 验证 ， 并 输出 当前 的 学 习 速 率 、 训 练 和 验证 集 上 的 
perplexity 。 在 完成 全 部 训练 后 ， 计 算 并 输出 模型 在 测试 集 上 的 
perplexityo 


sv = tf.train.Supervisor() 
with sv.managed session() as session: 
for i in range(config.max max_epoch): 
lr decay = config.1r_decay ** max(i + 1 - config.max_epoch, @.@) 


m.assign Ir(session, config.learning rate * Ir_decay) 


print("Epoch: %d Learning rate: %.3f" % (i + 1, session.run(m.1r))) 

train_perplexity = run_epoch(session, m, eval_op=m.train_op, 
verbose=True) 

print("Epoch: %d Train Perplexity: %.3f" % (i + 1, train_perplexity)) 

valid perplexity = run_epoch(session, mvalid) 


print("Epoch: %d Valid Perplexity: %.3f" % (i + 1, valid_perplexity)) 


test_perplexity = run_epoch(session, mtest) 


print("Test Perplexity: %.3f" % test_perplexity) 


我 们 来 看 SmallConfig 小 型 模型 的 最 后 结果 ， 我 们 在 i7 6900K 和 GTX 
1080 上 的 训练 速度 可 达 21000 单 词 每 秒 。 同 时 在 最 后 一 个 epoch 中 ， 训 练 
集 上 可 达 36.9 的 perplexity， 而 验证 集 和 测试 集 上 分 别 可 达 122.3 和 116.7 的 
perplexityo 


Epoch: 13 Learnign rate: @.004 
.004 perplexity: 56.003 speed: 13005 wps 
.104 perplexity: 41.096 speed: 21836 wps 
.204 perplexity: 45.000 speed: 21891 wps 
.304 perplexity: 43.224 speed: 21738 wps 
.404 perplexity: 42.508 speed: 21529 wps 


0 

0 

0 

0 

0 

@.504 perplexity: 41.803 speed: 21565 wps 
0.604 perplexity: 40.425 speed: 21470 wps 
@.703 perplexity: 39.768 speed: 21418 wps 
0.803 perplexity: 39.088 speed: 21480 wps 
@.903 perplexity: 37.753 speed: 21493 wps 
Epoch: 13 Train Perplexity: 36.949 

Epoch: 13 Valid Perplexity: 122.300 


Test Perplexity: 116.763 


读者 可 以 自行 测试 中 型 模型 和 大 型 模型 ， 在 原 论文 中 提 到 在 中 型 模 
型 上 可 以 达到 (训练 集 : 48.45， 验 证 集 : 86.16， 测 试 集 : 82.07) 的 效 
果 ， 在 大 型 模型 上 ， 可 以 达到 (训练 集 : 37.87， 验 证 集 : 82.62， 测 试 
集 : 78.29) 的 效果 。 本 节 我 们 实现 了 一 个 基于 LSTM 的 语言 模型 ， 读 者 
应 该 了 解 到 LSTM 在 处 理 文本 等 时 序数 据 中 的 作用 了 。LSTM 可 以 存储 状 
态 ， 并 依靠 状态 对 当前 的 输入 进行 处 理 分 析 和 预测 。RNN 和 LSTM 赋 予 了 
神经 网 络 记 忆 和 储存 过 往 信息 的 能 力 ， 可 以 模仿 人 类 的 一 些 简单 的 记忆 
和 推理 功能 。 而 目前 ， 注 意 力 (attention) 机 制 是 RNN 和 NLP 领域 研究 的 
热点 ， 这 种 机 制 让 机 器 可 以 更 好 地 模拟 人 脑 的 功能 。 在 图 像 标题 生成 任 
务 中 ， 包 含 注 意 力 机 制 的 RNN 可 以 对 某 一 区 域 的 图 像 进 行 分 析 ， 并 生成 
对 应 的 文字 描述 ， 有 兴趣 的 读者 可 以 阅读 论文 Show,Attend and Tell: Neural 
Image Caption Generation with Visual Attention 了 解 这 部 分 的 相关 信息 。 


7.3 ”TensorFlow 实 现 Bidirectional LSTM 
Classifier 


双向 循环 神经 网 络 (Bidirectional Recurrent Neural Networks59 , Bi- 
RNN) 是 由 Schuster 和 Paliwal 于 1997 年 首次 提出 的 ， 和 LSTM 是 在 同一 年 
被 提出 的 。Bi-RNN 的 主要 目标 是 增加 RNN 可 利用 的 信息 。 比 如 普通 的 
MLP 对 数据 长 度 等 有 限制 ， 而 RNN 昌 然 可 以 处 理 不 固定 长 度 的 时 序数 
据 ， 但 是 无 法 利用 某 个 历史 输入 的 未 来 信息 。Bi-RNN 则 正好 相反 ， 它 可 
以 同时 使 用 时 序数 据 中 某 个 输入 的 历史 及 未 来 数据 。 其 实现 原理 很 简 
单 ， 将 时 序 方向 相反 的 两 个 循环 神经 网 络 连接 到 同一 个 输出 ， 通 过 这 种 
结构 ， 输 出 层 就 可 以 同时 获取 历史 和 未 来 信息 了 。 


在 需要 上 下 文 环境 的 情况 中 ，Bi-RNN 将 会 非常 有 用 ， 比 如 在 手写 文 
字 识 别 时 ， 如 果 有 当前 要 识别 的 单词 的 前 面 和 后 面 一 个 单词 的 信息 ， 那 
么 将 非常 有 利于 识别 。 同 样 ， 我 们 在 阅读 文章 时 ， 有 时 也 需要 通过 下 文 
的 语 境 来 推测 文中 某 句 话 的 准确 含义 。 对 Language Modeling 这 类 问题 ， 
可 能 Bi-RNN 并 不 合适 ， 因 为 我 们 的 目标 就 是 通过 前 文 预测 下 一 个 单词 ， 
这 里 不 能 将 下 文 信息 传 给 模型 。 对 很 多 分 类 问题 ， 比 如 手写 文字 识别 、 
机 器 翻译 、 蛋 日 结构 预测 等 ， 使 用 Bi-RNN 将 会 大 大 提升 模型 效果 。 百 度 
在 其 语音 识别 中 也 是 通过 Bi-RNN 综 合 考 虑 上 下 文 语 境 ， 将 其 模型 准确 率 
大 大 提升 。 


Bi-RNN 网 络 结构 的 核心 是 把 一 个 普通 的 单 向 的 RNN 拆 成 两 个 方向 ， 
一 个 是 随时 序 正 向 的 ， 一 个 是 逆 着 时 序 的 反 向 的 ， 如 图 7-8 所 示 。 这 样 当 
前 时 间 节 点 的 输出 就 可 以 同时 利用 正 向 、 反 向 两 个 方向 的 信息 ， 而 不 像 
普通 RNN 需 要 等 到 后 面 时 间 节 点 才 可 以 获取 未 来 信息 。 这 两 个 不 同方 向 
的 RNN 之 间 不 会 共用 state， 即 正 向 RNN 的 输出 state 只 会 传 给 正 向 的 
RNN， 反 向 RNN 的 输出 只 会 传 给 反 向 的 RNN， 它 们 之 间 没 有 直接 连接 。 
如 图 7-9 所 示 ， 每 一 个 时 间 节 点 的 输入 会 分 别传 到 正 向 和 反 向 的 RNN 中 ， 
它们 根据 各 目的 状态 产生 输出 ， 这 两 份 输出 会 一 起 连接 到 Bi-RNN 的 输出 
节点 ， 共 同 合成 最 终 输出 。 我 们 可 以 看 到 ，Bi-RNN 的 网 络 中 虽然 两 个 方 
向 的 RNN 基 本 没有 交集 ， 但 是 因为 它们 共同 合成 了 输出 ， 所 以 它们 对 当 
前 时 间 节 点 输出 的 贡献 (或 造成 的 loss) 就 可 以 在 训练 中 被 计算 出 来 ， 并 
且 它 们 的 参数 会 根据 梯度 被 优化 到 合适 的 值 。 


Bi-RNN 在 训练 时 和 普通 单 向 RNN 非 常 类 似 ， 因 为 两 个 不 同方 向 的 
RNN 之 间 几 乎 没有 交集 ， 因 此 它们 可 以 分 别 展开 为 普通 的 前 馈 网 络 。 不 
过 在 使 用 BPTT (back-propagation through time) 算法 训练 时 ， 我 们 无 法 同 
时 更 新 状态 和 和 输出。 同时 ， 正 向 state 在 t=1 时 未 知 ， 且 反 向 state 在 t=T 时 未 
知 ， 即 state 在 各 自 方向 的 开始 处 未 知 ， 这 里 需要 人 工 设置 。 此 外 ， 正 向 状 
态 的 导数 在 t=T 时 未 知 ， 且 反 向 state 的 导数 在 t=1 时 未 知 ， 即 state 的 导数 在 
结尾 处 未 知 ， 这 里 一 般 需 要 设 为 0 代表 此 时 对 参数 更 新 不 重要 。 然 后 正式 
开始 训练 步骤 : 第 一 步 ， 我 们 对 输入 数据 做 forward pass 操 作 ， 即 inference 
的 操作 ， 我 们 先 沿 着 1 ~ TI 方向 计算 正 向 RNN 的 state， 再 治 着 T- 1 方向 计 
算 反 向 RNN 的 state， 然 后 获得 输出 output; 第 二 步 ， 我 们 进行 backward 
pass 操 作 ， 即 对 目标 函数 求 导 的 操作 ， 我 们 先 对 输出 output 求 导 ， 然 后 沿 
AT- 1 方向 计算 正 向 RNN 的 state 的 导数 ， 再 冶 着 1 ~ T 方 向 计算 反 向 RNN 
的 state 的 导数 ; 第 三 步 根据 求 得 的 梯度 值 更 新 模型 参数 ， 完 成 一 次 训练 。 


Structure overview 
(a) unidirectional RNN 
(b) bidirectional RNN 


图 7-8 RNN 和 Bi-RNN 结 构 对 比 图 


FORWARD 
STATES 


图 7-9 Bi-RNN 结 构 示 意图 


Bi-RNN 中 的 每 个 RNN 单 元 既 可 以 是 传统 的 RNN， 也 可 以 是 LSTM 单 
元 或 者 GRU 单 元 ， 思 路 是 一 致 的 ， 而 且 我 们 也 可 以 在 一 层 Bi-RNN 上 再 葡 
加 一 层 Bi-RNN， 即 上 一 层 Bi-RNN 的 输出 再 作为 下 一 层 Bi-RNN 的 输入 ， 
可 以 进一步 抽象 提炼 特征 。 如 果 最 后 用 作 分 类 任务 ， 我 们 可 以 将 Bi-RNN 
的 输出 序列 连接 一 个 全 连接 层 ， 或 者 连接 全 局 平均 池 化 Global Average 
Pooling， 最 后 再 接 Softmax 层 ， 这 部 分 和 使 用 卷 积 网 络 的 输出 进行 分 类 的 
做 法 一 样 。 

下 面 我 们 就 使 用 TensorFlow 实 现 一 个 Bidirectional LSTM Classifier , 
并 在 MNIST 数 据 集 上 进行 测试 。 先 载 入 TensorFlow、NumPy， 以 及 
TensorFlow 自 带 的 MNIST 数 据 读 取 器 。 与 最 开始 的 几 章 一 样 ， 我 们 直接 使 
用 input_data.read_data_sets 下 载 并 读 取 MNIST 数 据 集 。 本 节 代 码 主 要 来 自 
TensorFlow-Examples 的 开源 实现 % 。 


import tensorflow as tf 
import numpy as np 
from tensorflow.examples.tutorials.mnist import input data 


mnist = input data.read data sets("/tmp/data/", one_hot=True) 


然后 设置 训练 参数 。 我 们 设置 学 习 速 率 为 0.01 (因为 优化 器 将 选择 
Adam， 所 以 学 习 速 率 较 低 ) ， 最 大 训练 样本 数 为 40 万 ，batch_size 为 
128， 同 时 设置 每 间隔 10 次 训练 就 展示 一 次 训练 情况 。 


learning rate = 0.01 
max_samples = 400000 
batch_size = 128 


display_step = 10 


因为 MNIST 的 图 像 尺 寸 为 28x28， 因 此 输入 n_input 为 28 (图 像 的 
宽 ) ， 同 时 n_steps 即 LSTM 的 展开 步 数 (unrolled steps of LSTM) ， 也 设 
置 为 28 (图 像 的 高 ) ， 这 样 图 像 的 全 部 信息 就 都 使 用 上 了 。 和 前 一 节 使 
用 LSTM 处 理 文 本 数据 时 一 次 读 取 一 个 单词 类 似 ， 这 里 是 一 次 读 取 一 行 像 
素 (28 个 像素 点 ) ， 然 后 下 一 个 时 间 点 再 传 入 下 一 行 像素 点 。 这 里 
n_hidden (LSTM 的 隐藏 节点 数 ) 1279256, Mn_classes (MNIST 数 据 集 的 
分 类 数目 ) 则 设 为 10。 


n_input = 28 
n_steps = 28 
n_hidden = 256 


n_classes = 10 


我 们 创建 输入 x 和 学 习 目 标 y 的 place_holder。 和 使 用 卷 积 神经 网 络 做 
分 类 时 类 似 ， 这 里 输入 x 中 每 一 个 样本 可 直接 使 用 二 维 的 结构 ， 而 不 必 像 
MLP 那 样 需要 转 为 一 维 结构 。 不 过 这 里 的 样本 的 二 维 的 含义， 和 卷 积 网 
络 中 空间 的 二 维 不 同 ， 我 们 的 样本 被 理解 为 一 个 时 间 序 列 ， 第 一 个 维度 
是 时 间 点 n_steps， 第 二 个 维度 是 每 个 时 间 点 的 数据 n_input。 同 时 ， 我 们 
设 创 建 最 后 的 Softmax 层 的 weights 和 biases ， 这 里 直接 使 用 
tf.random_normal 初 始 化 这 些 参 数 。 为 是 双向 LSTM ， 有 forward 和 
backwrad 两 个 LSTM BY cell, Pr 以 weights 的 参数 量 也 翻 倍 ， 变 为 
2*n_hiddeno 


x = tf.placeholder("float", [None, n_steps, n_input]) 
y = tf.placeholder("float", [None, n_classes]) 


weights = tf.Variable(tf.random_normal([2*n_hidden, n_classes])) 


biases = tf.Variable(tf.random_normal([n_classes])) 


下 面 就 定义 Bidirectional LSTM 网 络 的 生成 水 数 。 我 们 先 对 数据 进行 
一 些 处 理 ， 把 形状 为 (batch_size，n_steps，n_input) 的 输入 变 成 长 度 为 
n_steps 的 列表 ， 而 其 中 元 素 形 状 为 (batch_size，n_input)。 然 后 输入 进行 
转 置 ， 使 用 tf.transpose(x,[1,0,2]) 将 第 一 个 维度 batch_size 和 第 二 个 维度 
n_steps 进行 交换 。 接 着 使 用 tfreshape 将 输入 x 变形 为 
(n_steps*batch_size,n_input) 的 形状 ， 再 使 用 tf.split 将 x 拆 成 长 度 为 n_steps 的 
列表 ， 列 表 中 每 个 tensor 的 尺寸 都 是 (batch_size ，n_input)， 这 样 符合 
LSTM 单 元 的 输入 格式 。 下 面 使 用 tt.contrib.rnn.BasicLSTMCell 分 别 创建 
forward 和 backward 的 LSTM 单 元 ， 它 们 的 隐藏 节点 数 都 设 为 n hidden， 而 
forget_bias 都 设 为 1。 然 后 直接 将 正 向 的 lstm_fw_cel 和 上 反 向 的 lstm_bw_cell 
传 入 Bi-RNN 接 口 tf.nn.bidirectional_rnn 中 ， 生 成 双向 LSTM， 并 传 入 x 作为 
输入 。 最 后 对 双向 LSTM 的 输出 结果 outputs 做 一 个 矩阵 乘法 并 加 上 含 置 ， 
这 里 的 参数 即 为 前 面 定 义 的 weights 和 biases。 


def BiRNN(x, weights, biases): 


x = tf.transpose(x, [1, ©, 2]) 
x = tf.reshape(x, [-1, n_input]) 
x = tf.split(x, n_steps) 


lstm fw cell = tf.contrib.rnn.BasicLSTMCell(n_hidden, forget_ bias=1.0) 
lstm bw cell = tf.contrib.rnn.BasicLSTMCell(n_hidden, forget_ bias=1.0) 


outputs, _, _ = tf.contrib.rnn.static_bidirectional_rnn(1lstm_fw_cell, 
lstm bw_ cell, x, dtype=tf.float32) 


return tf.matmul(outputs[-1], weights) + biases 


我 们 使 用 刚才 定义 好 的 函数 生成 我 们 的 Bidirectional LSTM 网 络 ， 对 
最 后 输出 的 结果 使 用 tt.nn.softmax_cross_entropy_with_logits 进 行 Softmax 处 
理 并 计算 损失 ， 然 后 使 用 tf.reduce_mean 计 算 平均 cost。 我 们 定义 优化 器 为 
Adam， 学 习 速 率 即 为 前 面 定 义 的 learning_rate。 再 使 用 tf.argmax 得 到 模型 
预测 的 类 别 ， 然 后 用 tf.equal 判 断 是 否 预测 正确 ， 最 后 用 tf.reduce_mean 求 
得 平均 准确 率 。 


pred = BiRNN(x, weights, biases) 


cost 


tf.reduce_mean(tf.nn.softmax_cross_ entropy _with_logits(logits=pred, 
labels=y)) 
optimizer = tf.train.AdamOptimizer(learning rate=learning rate) .minimize( 


cost) 


correct_pred = tf.equal(tf.argmax(pred,1), tf.argmax(y,1) ) 
accuracy = tf.reduce_mean(tf.cast(correct_pred, tf.float32)) 


init = tf.global_ variables _initializer() 


下 面 开始 执行 训练 和 测试 操作 。 第 一 步 是 执行 初始 化 参数 ， 然 后 定 

一 个 训练 的 循环 ， 保 持 总 训练 样本 数 (迭代 次 数 *batch_size) 小 于 之 前 
ees 在 每 一 轮训 练 迭 代 中 ， 我 们 使 用 mnist.train.next_batch 拿 到 一 
个 batch 的 数据 并 使 用 reshape 改 变 其 形状 。 接 着 ， 将 包含 输入 x 和 训练 目标 
y 的 feed_dict 传 入 ， 执 行 一 次 训练 操作 并 更 新 模型 参数 。 每 当 迭 代数 为 
display_step 的 整数 倍 时 ， 我 们 计算 一 次 当前 batch 数 据 的 预测 准确 率 和 1oss 
并 展示 出 来 。 


with tf.Session() as sess: 

sess.run(init) 

step = 

while step * batch_size < max_samples: 
batch_x, batch_y = mnist.train.next_batch(batch_size) 
batch_x = batch_x.reshape((batch_size, n_steps, n_input)) 
sess.run(optimizer, feed _dict={x: batch_x, y: batch_y}) 
if step % display_step = 

acc = sess.run(accuracy, feed_dict={x: batch_x, y: batch_y}) 


loss = sess.run(cost, feed_dict={x: batch_x, y: batch_y}) 


print("Iter ”+ str(step*batch_size) + ", Minibatch Loss= " + \ 
"{:.6f}".format(loss) + ", Training Accuracy= " + \ 
"{:.56}". format (acc) ) 
step += 1 


print( "Optimization Finished!") 


全 部 训练 迭代 结束 后 ， 我 们 使 用 训练 好 的 模型 ， 对 mnist.test.images 
中 全 部 的 测试 数据 进行 预测 ， 并 将 准确 率 展示 出 来 。 


test len = 10000 

test data = mnist.test.images[:test_len].reshape((-1, n_steps, n_input)) 
test_label = mnist.test.labels[:test_len] 

print("Testing Accuracy:", 


sess.run(accuracy, feed _dict={x: test_data, y: test_label})) 


在 完成 了 40 万 个 样本 的 训练 后 ， 我 们 看 一 下 模型 在 训练 集 和 测试 集 
上 的 表现 。 在 训练 集 上 我 们 的 预测 准确 率 非 常 高 ， 基 本 都 是 1， 而 在 包含 
10000 个 样本 的 测试 集 上 也 有 0.983 的 准确 率 。 


Iter 394240, Minibatch Loss= 0.025686, Training Accuracy= 0.99219 
Iter 395520, Minibatch Loss= 0.001847, Training Accuracy= 1.00000 
Iter 396800, Minibatch Loss= 0.009049, Training Accuracy= 1.00000 
Iter 398080, Minibatch Loss= 0.015611, Training Accuracy= 1.00000 
Iter 399360, Minibatch Loss= 0.009190, Training Accuracy= 1.90000 
Optimization Finished! 


Testing Accuracy: 0.983 


Bidirectional LSTM Classifier 在 MNIST 数 据 集 上 的 表现 虽然 不 如 卷 积 
神经 网 络 ， 但 也 达到 了 一 个 很 不 错 的 水 平 。Bi-RNN 乃 至 双向 LSTM 网 络 
在 时 间 序 列 分 类 任务 上 能 达到 较 好 的 表现 ， 是 因为 它 能 做 到 同时 利用 时 
间 序 列 的 历史 和 未 来 信息 ， 结 合 上 下 文 信息 ， 对 结果 进行 综合 判定 。 哩 
然 在 图 片 这 种 空间 结构 显著 的 数据 上 不 如 卷 积 神经 网 络 ， 但 在 无 空间 结 
构 的 单纯 的 时 间 序 列 上 ， 相 信 Bi-RNN 和 Bi-LSTM 会 更 具 优势 。 


8 ”TensorFlow 实 现 深 度 强 化 学 习 
8.1 深度 强化 学 习 简 介 


强化 学 习 (Reinforcement Learning) 是 机 器 学 习 的 一 个 重要 分 支 ， 主 
要 用 来 解决 连续 决策 的 问题 。 强 化 学 习 可 以 在 复杂 的 、 不 确定 的 环境 中 
学 习 如 何 实现 我 们 设 定 的 目标 。 强 化 学 习 的 应 用 场景 非常 广 ， 几 乎 包括 
了 所 有 需要 做 一 系列 决策 的 问题 ， 比 如 控制 机 器 人 的 电机 让 它 执行 特定 
任务 ， 给 商品 定价 或 者 库存 管理 、 玩 视频 游戏 或 棋牌 游戏 等 。 强 化 学 习 
也 可 以 应 用 到 有 序列 输出 的 问题 中 ， 因 为 它 可 以 针对 一 系列 变化 的 环境 
状态 ， 输 出 一 系列 对 应 的 行动 。 举 个 简单 的 例子 ， 围 棋 (乃至 全 部 棋牌 
类 游戏 ) 可 以 归结 为 一 个 强化 学 习 问题 ， 我 们 需要 学 习 在 各 种 局 势 下 如 
何 走出 最 好 的 招 法 。 


一 个 强化 学 习 问题 包含 三 个 主要 概念 ， 即 环境 状态 (Environment 
State) 、 行 动 (Action) 和 奖励 (Reward) ， 而 强化 学 习 的 目标 就 是 获得 
最 多 的 累计 奖励 。 在 围棋 中 ， 环 境 状 态 就 是 我 们 已 经 下 出 来 的 某 个 局 
势 ， 行 动 是 指 我 们 在 某 个 位 置 落 子 ， 奖 励 则 是 当前 这 步 棋 获 得 的 目 数 

(围棋 中 存在 不 确定 性 ， 在 结束 对 弈 后 计算 的 目 数 是 准确 的 ， 棋 局 中 获 
得 的 目 数 是 估计 的 ) ， 而 最 终 目 标 就 是 在 结束 对 弈 时 总 目 数 超过 对 手 ， 
万 得 胜利 。 我 们 要 让 强化 学 习 模 型 根据 环境 状态 、 行 动 和 奖励 ， 学 习 出 
最 佳 的 策略 ， 并 以 最 终结 果 为 目标 ， 不 能 只 看 某 个 行动 当下 带 来 的 利益 

(比如 围棋 中 通过 某 一 手 棋 获 得 的 实地 ) ， 还 要 看 到 这 个 行动 未 来 能 带 
来 的 价值 (比如 围棋 中 外 势 可 以 带 来 的 潜在 价值 。 我 们 回顾 一 下 ， 
AutoEncoder 属 于 无 监督 学 习 ， 而 MLP、CNN 和 RNN 都 属于 监督 学 习 ， 但 
强化 学 习 跟 这 两 种 都 不 同 。 它 不 像 无 监督 学 习 那 样 完 全 没有 学 习 目 标 ， 
也 不 像 监督 学 习 那 样 有 非常 明确 的 目标 ( 即 label) ， 强 化 学 习 的 目标 一 
般 是 变化 的 、 不 明确 的 ， 甚 至 可 能 不 存在 绝对 正确 的 标签 。 


强化 学 习 已 经 有 几 十 年 的 历史 ,但 是 直到 最 近 几 年 深度 学 习 技 术 的 
突破 ， 强 化 学 习 才 有 了 比较 大 的 进展 。Google DeepMind 结 合 强化 学 习 与 
深度 学 习 ， 提 出 DQN5 (Deep Q-Network， 深 度 Q 网 络 ) ， 它 可 以 自动 玩 
Atari 2600 系 列 的 游戏 ， 并 取得 了 超过 人 类 的 水 平 。 而 DeepMind 的 


AlphaGo® 结合 了 策略 网 络 (Policy Network) 、 估 值 网 络 (Value 
Network, t2BIDQN) 与 蒙特 卡 洛 搜索 树 (Monte Carlo Tree Search) ， 实 
现 了 具有 超 高 水 平 的 围棋 对 战 程序 ， 并 战胜 了 世界 冠军 李 世 石 。 
DeepMind 使 用 的 这 些 深度 强化 学 习 模 型 (Deep Reinforcement Learning) 
本 质 上 也 是 神经 网 络 ， 主 要 分 为 策略 网 络 和 估 值 网 络 两 种 。 深 度 强化 学 
习 模 型 对 环境 没有 特别 强 的 限制 ， 可 以 很 好 地 推广 到 其 他 环境 ， 因 此 对 
强化 学 习 的 研究 和 发 展 具 有 非常 重大 的 意义 。 下 面 我 们 来 看 看 深度 强化 
学 习 的 一 些 实际 应 用 例子 。 


无 人 驾驶 是 一 个 非 党 复杂、 非常 困难 的 强化 学 习 任 务 ， 在 深度 学 习 
出 现 之 前 ， 几 乎 不 可 能 实现 。 如 图 8-1 所 示 ， 无 人 驾驶 汽车 通过 摄像 头 、 
雷达 、 激 光 测 距 仪 、 传 感 器 等 对 环境 进行 观测 ， 获 取 到 许多 丰富 的 环境 
信息 ， 然 后 通过 深度 强化 学 习 模型 中 的 CNN、RNN 等 对 环境 信息 进行 处 
理 、 抽 象 和 转化 ， 再 结合 强化 学 习 算 法 框 避 预 测 出 最 应 该 执行 的 动作 
\ 加 速 、 减 速 、 转 换 方向 等 ) ， 来 实现 自动 驾驶 。 无 人 驾驶 汽车 每 次 执 
行 的 动作 ， 都 会 让 它 到 目的 地 的 路 程 更 短 ， 这 就 是 每 次 行动 的 奖励 。 当 
然 ， 其 最 终 目 标 是 安全 地 顺利 地 到 达 目 的 地 ， 这 样 可 以 获得 最 多 的 奖 
励 。 


图 8-1 自动 驾驶 包含 了 对 环境 物体 的 识别 及 对 汽车 移动 的 连续 控制 


深度 强化 学 习 的 另 一 个 重要 应 用 是 操控 复杂 的 机 械 装置 。 一 般 情 
下 ， 我 们 需要 给 机 械 装置 编写 逻辑 非常 复杂 的 控制 代码 来 让 它们 执行 具 
体 的 操作 ， 比 如 控制 机 械 贺 拾取 小 零件 。 如 果 要 拾取 某 个 特定 形状 的 小 
零件 ， 需 要 单独 设计 一 套 逻 辑 ， 来 控制 电机 进行 一 系列 运转 ， 进 而 驱动 
机 械 辟 各 个 关节 和 转动， 最终 拾 取 物体 。 但 是 这 种 做 法 拾取 物体 的 成 功率 
并 不 高 ， 而 且 如 果 换 了 一 个 形状 的 零件 ， 或 者 零件 的 位 置 发 生 比 较 大 的 
变化 ， 那 就 需要 重新 设计 逻辑 。 利 用 深度 强化 学 习 算 法 ， 我 们 可 以 让 机 
器 目 己 学 习 如 何 拾取 物体 ， 如 图 8-2 所 示 ， 省 去 了 大 量 的 编程 工作 。 深 度 


强化 学 习 模 型 中 前 几 层 可 使 用 卷 积 网 络 ， 然 后 可 以 使 用 卷 积 网 络 对 摄像 
头 捕 获 的 图 像 进 行 处 理 和 分 析 ， 让 模型 能 “看 见 ”环境 并 识别 出 物体 位 
置 ， 再 通过 强化 学 习 框 染 ， 学 习 如 何 通 过 一 系列 动作 来 最 高 效 地 拾取 物 
体 。 另 外 ， 当 有 新 零件 出 现时 ， 只 需要 再 让 机 器 学 习 一 段 时 间 ， 束 可 以 
掌握 抓 取 新 零件 的 方法 ， 并 且 这 个 学 习 过 程 可 以 自动 完成 ， 无 须 人 工 干 
预 。 事 实 上 ， 通 过 深度 强化 学 习 我 们 甚至 可 以 让 模型 学 会 自动 驾驶 直 升 
机 ， 这 是 Andrew Ng 在 讲解 强化 学 习 时 提 到 的 例子 。 


图 8-2 使 用 深度 强化 学 习 模型 控制 机 械 凡 拾取 小 零件 


同时 ， 我 们 也 可 以 使 用 深度 强化 学 习 目 动 玩 游戏 ， 如 图 8-3 所 示 ， 用 
DQN 可 学 习 自 动 玩 Flappy Bird 。DQN 前 几 层 通常 也 是 卷 积 层 ， 因 此 具有 
了 对 游戏 图 像 像 素 (raw pixels) 直接 进行 学 习 的 能 力 。 前 几 层 卷 积 可 理 
解 和 识别 游戏 图 像 中 的 物体 ， 后 层 的 神经 网 络 则 对 Action 的 期 望 价值 进行 
学 习 ， 结 合 这 两 个 部 分 ， 可 以 得 到 能 根据 游戏 像素 自动 玩 Flappy Bird 的 
强化 学 习 策 略 。 而 且 ， 不 仅 是 这 类 简单 的 游戏 ， 连 非常 复杂 的 包含 大 量 
战术 策略 的 《星际 争霸 2》 也 可 以 被 深度 强化 学 习 模 型 掌握 。 目 前 ， 
DeepMind 就 在 探索 如 何 通过 深度 强化 学 习 训练 一 个 可 以 战胜 《星际 争霸 
2》 世 界 冠 军 的 人 工 智能 ， 这 之 后 的 进展 让 我 们 拭目以待 。 


图 8-3 ”使 用 深度 强化 学 习 自动 玩 Flappy Bird 


深度 强化 学 习 最 具有 代表 性 的 一 个 里 程 碑 自然 是 AlphaGo。 在 2016 
年 ，Google DeepMind 的 AlphaGo 以 4:1 的 比分 战胜 了 人 类 的 世界 冠军 李 世 
石 ， 如 图 8-4 所 示 。 围 棋 可 以 说 是 棋 类 游戏 中 最 为 复杂 的 ，19x19 的 棋盘 
给 它 带 来 了 336! 种 状态 ， 除 去 其 中 非法 的 违反 游戏 规则 的 状态 ， 也 有 远 超 
整个 宇宙 中 原子 数目 的 状态 数 。 因 此 ， 计 算 机 是 无 法 通过 像 深蓝 那样 的 
暴力 搜索 来 战胜 人 类 的 ， 要 在 围棋 这 个 项 目 上 战胜 人 类 ， 就 必须 给 计算 
机 抽象 思维 的 能 力 ， 而 AlphaGo 做 到 了 这 一 点 。 


*O: Google DeepMind 
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图 8-4 AlphaGo RET REEF SBR AOI 


在 AlphaGo 中 使 用 了 快速 走 子 (Fast Rollout) 、 策 略 网 络 、 估 值 网 络 
和 蒙特 卡 洛 搜索 树 等 技术 。 图 8-5 所 示 为 AlphaGo 的 几 种 扩 术 单独 使 用 时 
的 表现 ， 横 坐标 为 步 数 ， 纵 坐标 为 预测 的 误差 (可 以 理解 为 误差 越 低 模 
型 效果 越 好 ) ， 其 中 简单 的 快速 走 子 策略 虽然 效果 比较 一 般 ， 但 是 已 经 


远 胜 随机 策略 。 估 值 网 络 和 策略 网 络 的 效果 都 非常 好 ， 相 对 来 说 ， 策 略 
网 络 的 性 能 更 胜 一 筹 。AlphaGo 融 合 了 所 有 这 些 策略 ， 取 得 了 比 单一 策略 
更 好 的 性 能 ， 在 实战 中 表现 出 了 惊人 的 水 平 。 
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图 8-5 AlphaGo 中 随机 策略 、 快 速 走 子 、 估 值 网 络 和 策略 网 络 (SL 和 RL 两 种 ) 的 性 能 表现 


Policy-Based (或 者 Policy Gradients ) 和 Value-Based (或 者 Q- 
Learning) 是 强化 学 习 中 最 重要 的 两 类 方法 ， 其 主要 区 别 在 于 Policy- 
Based 的 方法 直接 预测 在 某 个 环境 状态 下 应 该 采取 的 Action， 而 Value 
Based 的 方法 则 预测 某 个 环境 状态 下 所 有 Action 的 期 望 价值 (Q 值 ) ， 之 
后 可 以 通过 选择 Q 值 最 高 的 Action 执 行 策略 。 这 两 种 方法 的 出 发 点 和 训练 
方式 都 有 不 同 ， 一 般 来 说 ，Value Based 方 法 适合 仅 有 少量 离散 取 值 的 
Action 的 环境 ， 而 Policy-Based 方 法 则 更 通用 ， 适 合 Action 种 类 非常 多 或 者 
有 连续 取 值 的 Action 的 环境 。 而 结合 深度 学 习 后 ，Policy-Based 的 方法 就 
成 了 Policy Network， 而 Value-Based 的 方法 则 成 了 Value Network。 


图 8-6 所 示 为 AlphaGo 中 的 策略 网 络 预测 出 的 当前 局 势 下 应 该 采取 的 
Action， 图 中 标注 的 数值 为 策略 网 络 输出 的 应 该 执行 某 个 Action 的 概率 ， 
即 我 们 应 该 在 某 个 位 置 落 子 的 概率 。 


图 8-7 所 示 为 AlphaGo 中 估 值 网 络 预测 出 的 当前 局 势 下 每 个 Action 的 期 
望 价 值 。 估 值 网 络 不 直接 输出 策略 ， 而 是 输出 Action 对 应 的 Q 值 ， 即 在 某 
个 位 置 沙子 可 以 获得 的 期 望 价值 。 随 后 ， 我 们 可 以 直接 选择 期 望 价值 最 
大 的 位 置 洛 子 ， 或 者 选择 其 他 位 置 进行 探索 。 


d Policy network 


图 8-6 ”AlphaGo 中 的 策略 网 络 ， 输 出 在 某 个 位 置 落 子 的 概率 
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图 8-7 ”AlphaGo 中 的 估 值 网 络 ， 输 出 在 某 个 位 置 落 子 的 期 望 价值 
在 强化 学 习 中 ， 我 们 也 可 以 建立 额外 的 model 对 环境 状态 的 变化 进行 


预测 。 普 通 的 强化 学 习 直 接 根 据 环境 状态 预测 出 行动 策略 ， 或 行动 的 期 
望 价 值 。 如 果 根 据 环境 状态 和 采取 的 行动 预测 接 下 来 的 环境 状态 ， 并 利 


用 这 个 信息 训练 强化 学 习 模型 ， 那 就 是 model-based RL。 对 于 复杂 的 环境 
状态 ， 比 如 视频 游戏 的 图 像 像 素 ， 要 预测 这 么 大 量 且 复杂 的 环境 信息 是 
非常 困难 的 。 如 果 环 境 状态 是 数量 不 大 的 一 些 离散 值 (m) ， 并 且 可 采取 
的 行动 也 是 数量 较 小 的 一 些 离 散 值 (n)， 那 么 环境 model 只 是 一 个 简单 的 
mxn 的 转换 矩阵 。 对 于 一 个 普通 的 视频 游戏 环境 ， 假 设 图 像 像 素 为 
64x64x3， 可 选 行动 有 18 种 ， 那 么 我 们 光 存 储 这 个 转换 矩阵 就 需要 大 的 难 
以 想象 的 内 存 空 间 (256% 3x18) 。 对 于 更 复杂 的 环境 ， 我 们 就 更 难 
使 用 model 预 测 接 下 来 的 环境 状态 。 而 model-free 类 型 的 强化 学 习 则 不 需要 
对 环境 状态 进行 任何 预测 ， 也 不 考虑 行动 将 如 何 影响 环境 。model-free 
RL 直接 对 策略 或 者 Action 的 期 望 价 值 进行 预测 ， 因 此 计算 效率 非常 高 。 
当然 ， 如 果 有 一 个 良好 的 model 可 以 高 效 、 准 确 地 对 环境 进行 预测 ， 会 对 
训练 RL 带 来 益处 ;但 是 一 个 不 那么 精准 的 model 反 而 会 严重 干扰 RL 的 训 
练 。 因 此 ， 对 大 多 数 复杂 环境 ， 我 们 主要 使 用 model-free RL， 同 时 供给 
更 多 的 样本 给 RL 训练 ， 用 来 弥补 没有 model 预 测 环境 状态 的 问题 。 


8.2 ”TensorFlow 实 现 策略 网 络 


前 面 提 到 了 强化 学 习 中 非常 重要 的 3 个 要 素 是 Environment State, 
Action 和 Reward。 人 在 环境 中 ， 强 化 学 习 模 型 的 载体 是 Agent， 它 负责 执行 
模型 给 出 的 行动 。 环 境 是 Agent 无 法 控制 的 ， 但 是 可 以 进行 观察 ， 根 据 观 
察 的 结果 ， 模 型 给 出 行动 ， 交 由 Agent 来 执行 ;而 Reward 是 在 某 个 环境 状 
态 下 执行 了 某 个 Action 而 获得 的 ， 是 模型 要 争取 的 目标 。 在 很 多 任务 中 ， 
Reward 是 延迟 获取 的 (Delayed) ， 即 某 个 Action 除 了 可 以 即时 获得 
Reward， 也 可 能 跟 未 来 获得 的 Reward 有 很 大 关系 。 


所 谓 策略 网 络 ， 即 建立 一 个 神经 网 络 模型 ， 它 可 以 通过 观察 环境 状 
态 ， 直 接 预 测 出 目前 最 应 该 执行 的 策略 (Policy) ， 执 行 这 个 策略 可 以 获 
得 最 大 的 期 望 收 益 (包括 现在 的 和 未 来 的 Reward) 。 与 普通 的 监督 学 习 
不 同 ， 在 强化 学 习 中 ， 可 能 没有 绝对 正确 的 学 习 目 标 ， 样 本 的 feature 不 再 
和 1label 一 一 对 应 。 对 某 一 个 特定 的 环境 状态 ， 我 们 并 不 知道 它 对 应 的 最 
好 的 Action 是 什么 ， 只 知道 当前 Action 获 得 的 Reward 还 有 试验 后 获得 的 未 
来 的 Reward。 我 们 需要 让 强化 学 习 模型 通过 试验 样本 自己 学 习 什 么 才 是 
某 个 环境 状态 下 比较 好 的 Action ， 而 不 是 告诉 模型 什么 才 是 比较 好 的 
Action， 因 为 我 们 也 不 知道 正确 的 答案 〈 即 样本 没有 绝对 正确 的 label， 只 
有 估算 出 的 label) 。 我 们 的 学 习 目标 是 期 望 价 值 ， 即 当前 获得 的 


Reward， 加 上 未 来 潜在 的 可 获取 的 reward。 为 了 更 好 地 让 策略 网 络 理 解 未 
来 的 、 潜 在 的 Reward， 策 略 网 络 不 只 是 使 用 当前 的 Reward 作 为 label， 而 
是 使 用 Discounted FutureReward， 即 把 所 有 未 来 奖励 依次 乘 以 豪 减 系数 y 
。 这 里 的 衰减 系数 一 般 是 一 个 略 小 于 但 接近 1 的 数 ， 防 止 没有 损耗 地 积累 
导致 Reward 目 标 发 散 ， 同 时 也 代表 了 对 未 来 奖励 的 不 确定 性 的 估计 。 


r=r,tyr, ty rs +... ty r, 


我 们 使 用 被 称 为 Policy Gradients 的 方法 来 训练 策略 网 络 。Policy 
Gradients 指 的 是 模型 通过 学 习 Action 在 Environment 中 获得 的 反馈 ， 使 用 梯 
度 更 新 模型 参数 的 过 程 。 在 训练 过 程 中 ， 模 型 会 接触 到 好 Action 及 它们 带 
来 的 高 期 望 价 值 ， 和 差 Action 及 它们 带 来 的 低 期 望 价 值 ， 因 此 通过 对 这 些 
样本 的 学 习 ， 我 们 的 模型 会 逐渐 增加 选择 好 Action 的 概率 ， 并 降低 选择 坏 
Action 的 概率 ， 这 样 就 逐渐 完成 了 我 们 对 策略 的 学 习 。 和 Q-Learning 或 估 
值 网 络 不 同 ， 策 略 网络 学 习 的 不 是 某 个 Action 对 应 的 期 望 价值 Q， 而 是 直 
接 学 习 在 当前 环境 应 该 采取 的 策略 ， 比 如 选择 每 个 Action 的 概率 (如 果 是 
有 限 个 可 选 Action， 好 的 Action 应 该 对 应 较 大 概率 ， 反 之 亦 然 ) ， 或 者 输 
出 某 个 Action 的 具体 数值 (如果 Action 不 是 离散 值 ， 而 是 连续 值 ) 。 因 此 
策略 网 络 是 一 种 End-to-End 〈 端 对 端 ) 的 方法 ， 可 以 直接 产生 最 终 的 策 
略 。 


Policy Based 的 方法 相 比 于 Value-Based， 有 更 好 的 收敛 性 (通常 可 以 
保证 收敛 到 局 部 最 优 ， 且 不 会 发 散 ) ， 同 时 对 高 维 或 者 连续 值 的 Action 非 
常 高 效 (训练 和 输出 结果 都 更 高 效 ) ， 同 时 能 学 习 出 带 有 随机 性 的 策 
略 。 例 如 ， 在 石头 剪刀 布 的 游戏 中 ， 任 何 有 规律 的 策略 都 会 被 别人 学 习 
到 并 且 被 针对 ， 因 此 完全 随机 的 策略 反而 可 以 立 于 不 败 之 地 (起 码 不 会 
输 给 别 的 策略 ) 。 在 这 种 情况 下 ， 可 以 利用 策略 网 络 学 到 随机 出 剪刀 、 
石头 、 布 的 策略 (三 个 Action 的 概率 相等 ) o 


我 们 需要 使 用 Gyms 辅助 我 们 进行 策略 网 络 的 训练 。Gym 是 OpenAI 
推出 的 开源 的 强化 学 习 的 环境 生成 工具 。OpenAI 是 Tesla 和 Space X 的 老板 
马 斯 克 发 起 的 非 营 利 性 的 人 工 智 能 研究 机 构 。 其 主要 任务 是 研究 安全 、 
开放 的 人 工 智 能 技术 ， 并 且 确 保 人 工 智 能 技术 可 以 被 广泛 地 、 公 平地 普 
及 ， 并 服务 社会 。Gym 是 OpenAI 贡 献 出 来 的 非常 重要 的 开源 项 目 ， 它 的 
主要 作用 是 为 研究 者 和 开发 者 提供 一 个 方便 的 强化 学 习 任 务 环 境 ， 例 如 
文字 游戏 、 棋 类 游戏 、 视 频 图 像 游戏 等 ， 并 且 让 用 户 可 以 和 其 他 人 的 强 
化 学 习 算法 进行 效率 、 性 能 上 的 比较 。 


对 于 强化 学 习 的 研究 ， 之 前 主要 受制 于 两 个 因素 。 其 一 是 缺乏 高 质 
量 的 Benchmark， 对 于 图 像 识 别 、 监 督学 习 等 问题 ， 我 们 有 ImageNet 这 样 
的 经 过 标注 的 超大 规模 数据 集 ， 可 以 让 各 种 算法 在 上 面 进行 测试 。 在 强 
化 学 习 中 同样 需要 大 量 的 、 丰 富 的 任务 环境 ， 而 目前 任务 环境 不 仅 稀 
缺 ， 而 且 设 置 一 个 环境 的 过 程 也 非常 烦琐 ; 其 二 是 我 们 没有 一 个 通用 的 
环境 标准 ， 强 化 学 习 的 相关 论文 很 难 进行 横向 比较 ， 不 同 任务 使 用 的 环 
境 定义 、reward 的 国 数 、 可 用 的 Action 都 会 有 区 别 ， 而 且 不 同 任务 的 难度 
可 能 差异 非 澡 大 ， 比 如 围棋 就 比 国际 象棋 难 很 多 。Gym 则 非常 好 地 解决 
了 这 两 个 问题 ， 提 供 了 大 量 的 标准 化 的 环境 ， 可 以 用 来 公平 地 横向 对 比 
强化 学 习 模 型 的 性 能 。Gym 的 用 户 可 以 上 传 模 型 效果 和 训练 日 志 到 
OpenAI Gym Service 的 接口 ， 随 后 可 以 参与 某 个 任务 的 排名 ， 和 其 他 研究 
者 比较 模型 的 效果 ， 并 分 享 算法 的 思路 给 其 他 研究 者 。 


OpenAl Gym 对 用 户 开发 模型 的 方式 没有 任何 限制 ， 它 跟 其 他 机 器 学 
习 库 ， 例 如 TensorFlow 和 Theano， 都 完全 兼容 。 用 户 可 以 使 用 Python 语 言 
和 任何 Python 的 Library 编 写 强 化 学 习 模 型 的 Agent， 比 如 可 以 创建 一 些 简 
单 的 经 验 规则 ， 或 者 使 用 State-Action 一 一 对 应 的 策略 表 ， 当 然 也 可 以 使 
用 深度 神经 网 络 模型 来 做 训练 模型 。 


在 Gym 中 ， 有 两 个 核心 的 概念 ， 一 个 是 Environment， 指 我 们 的 任务 
或 者 问题 ， 另 一 个 就 是 Agent， 即 我 们 编写 的 策略 或 算法 。Agent 会 将 执 
行 的 Action 传 给 Environment ，Environment 接 受 某 个 Action 后 ， 再 将 结果 
Observation 〈 即 环境 状态 ) 和 Reward 返 回 给 Agent。Gym 中 提供 了 完整 的 
Environment 的 接口 ， 而 Agent 则 是 完全 由 用 户 编写 。 目 前 ，Gym 一 共 包含 
了 几 个 大 类 的 环境 ， 分 别 是 Algorithmic (算法 ) 、Atari 游 戏 (使 用 了 
Arcade Learning Environment) 、Board Games (棋牌 类 游戏 ， 其 中 围棋 包 
含 了 9x9 和 19x19 两 种 规模 ， 目 前 使 用 的 对 抗 程序 为 Pachi) 、Box2D (二 
维 的 物理 引擎) 、Classic Control 〈 经 典 的 控制 类 问题 ) 、MuJoCo ( 另 一 
个 高 效 的 物理 引擎 ， 可 以 实现 非常 细节 的 物理 模拟 ， 包 括 碰撞 ， 可 以 用 
来 控制 2D 或 者 3D 的 机 器 人 执行 一 些 任务 操作 ) ， 以 及 Toy Text (文本 类 
型 ) 的 任务 。 其 中 某 些 任务 环境 需要 额外 安装 一 些 依赖 库 或 者 程序 ， 我 
们 可 以 执行 full install 来 安装 全 部 环境 的 依赖 程序 。 


Gym 中 环境 的 接口 是 Env 类 ， 其 中 有 几 个 重要 的 方法 。 使 用 
env=gym.make(Copy-v0) 创 建 荣 个 任务 的 环境 ; 使 用 envresetO 初 始 化 环 
境 ， 并 返回 初始 的 observation， 即 state; 使 用 env.step(actiom) 在 当前 状态 下 
执行 一 步 Action， 并 返回 observation、reward、done (完成 标记 ) ~ info 


(调试 信息 ， 但 一 般 不 应 让 Agent 使 用 该 信息 ) ; 使 用 env.render() 方 法 可 
以 泻 染 出 一 帧 的 任务 图 像 ， 很 多 任务 的 observation 就 是 一 帧 图 像 ， 此 时 
Agent 直 接 从 图 像 像 素 中 学 习 信息 和 策略 。 


下 面 我 们 就 以 Gym 中 的 CartPole 环 境 作 为 具体 例子 。CartPole 任 务 最 
早 由 论文 Neuronlike Adaptive Elements That Can Solve Difficult Learning 
Control Problem 提出 ， 是 一 个 经 典 的 可 用 强化 学 习 来 解决 的 控制 问题 。 
如 图 8-8 所 示 ，CartPole 的 环境 中 有 一 辆 小 车 ， 在 一 个 一 维 的 无 阻力 轨道 上 
行动 ， 在 车 上 绑 着 一 个 连接 不 太 结 实 的 杆 ， 这 个 杆 会 左右 摇晃 。 我 们 的 
环境 信息 observation 并 不 是 图 像 像素 ， 而 只 是 一 个 有 4 个 值 的 数组 ， 包 含 
了 环境 中 的 各 种 信息 ， 比 如 小 车 位 置 、 速 度 、 杆 的 角度 、 速 度 等 。 我 们 
并 不 需要 知道 每 个 数值 对 应 的 具体 物理 含义 ， 因 为 我 们 不 是 要 根据 这 些 
数值 自己 编写 逻辑 控制 小 车 ， 而 是 设计 一 个 策略 网 络 让 它 自 己 从 这 些 数 
值 中 学 习 到 环境 信息 ， 并 制定 最 佳 策略 。 我 们 可 以 采取 的 Action 非 常 简 
单 ， 给 小 车 施加 一 个 正 向 的 力 或 者 负 向 的 力 。 我 们 有 一 个 Action Space 的 
概念 ， 即 Action 的 离散 数值 空间 ， 比 如 在 CartPole 里 Action Space 就 是 
Discrete(2)， 即 只 有 0 或 1， 其 他 复杂 一 点 的 游戏 可 能 有 更 多 可 以 选择 的 
值 。 我 们 并 不 需要 知道 这 里 的 数值 会 具体 对 应 哪个 Action， 只 要 模型 可 以 
学 习 到 采取 这 个 Action 之 后 将 会 带 来 的 影响 就 可 以 ， 因 此 Action 都 只 是 一 
个 编码 。CartPole 的 任务 目标 很 简单 ， 就 是 尽 可 能 地 保持 杆 竖 直 不 倾倒 ， 
当 小 车 偏离 中 心 超过 2.4 个 单位 的 距离 ， 或 者 杆 的 倾角 超过 15 度 时 ， 我 们 
的 任务 宣告 失败 ， 并 目 动 结束 。 在 每 坚持 一 步 后 ， 我 们 会 获得 +1 的 
reward， 我 们 只 需要 坚持 尽量 长 的 时 间 不 导致 任务 失败 即 可 。 任 务 的 
Reward 恒 定 ， 对 任何 Action， 只 要 不 导致 任务 结束 ， 都 可 以 获得 +1 的 
Reward。 但 是 我 们 的 模型 必须 有 远见 ， 要 可 以 考虑 到 长 远 的 利益 ， 而 不 
只 是 学 习 到 当前 的 Reward。 


区 ba 
图 8-8 ”CartPole 环 境 中 包含 一 个 可 以 控制 移动 方向 的 小 车 和 不 稳 的 杆 


当 我 们 使 用 env.reset() 方 法 后 ， 就 可 以 初始 化 环境 ， 并 获取 到 环境 的 
第 一 个 Observation。 此 后 ， 根 据 Observation 预 测 出 应 该 来 取 的 Action， 并 
使 用 env.step(action) 在 环境 中 执行 Action ， 这 时 会 返回 Observation (在 
CartPole 中 是 4 维 的 抽象 的 特征 ， 在 其 他 任务 中 可 能 是 图 像 像 素 ) 、reward 


(当前 这 步 Action 获 得 的 即时 奖励 ) 、done (任务 是 否 结束 的 标记 ， 在 
CartPole 中 是 杆 倾倒 或 者 小 车 偏离 中 心太 远 ， 其 他 游戏 中 可 能 是 被 敌人 击 
中 。 如 果 为 True， 应 该 reset 任 务 ) 和 info (额外 的 诊断 信息 ， 比 如 标识 了 
游戏 中 一 些 随 机 事件 的 概率 ， 但 是 不 应 该 用 来 训练 Agent) 。 这 样 我 们 就 
进入 Action-Observation 的 循环 ， 执 行 Action， 获 得 Observation ， 再 执行 
Action， 如 此 往复 直到 任务 结束 ， 并 期 望 在 结束 时 获得 尽 可 能 高 的 奖励 。 
我 们 可 执行 的 Action 在 CartPole 中 是 离散 的 数值 空间 ， 即 有 限 的 几 种 可 
能 ， 在 别 的 任务 中 可 能 是 连续 的 数值 ， 例 如 在 赛车 游戏 任务 中 ， 我 们 执 
行 的 动作 是 朝 某 个 方向 移动 ， 这 样 我 们 就 有 了 0~360 度 的 连续 数值 空间 可 
以 选择 。 同 时 ， 我 们 的 环境 名 称 后 面 都 带 有 版 本 号 ， 比 如 V0、V1 等 。 当 
环境 发 生 更 新 或 者 变化 时 ， 我 们 不 会 修改 之 前 的 环境 ， 而 是 创建 新 的 版 
本 ， 这 样 可 以 让 Agent 的 性 能 被 公平 的 比较 。 同 时 ， 我 们 可 以 调用 
env.monitor 方 法 ， 对 模型 的 训练 过 程 进行 监控 和 记录 ， 这 样 之 后 我 们 就 可 
以 方便 地 使 用 gym.upload 将 训练 日 志 上 传 到 gym service 进 行 展示 ， 并 与 他 
人 的 算法 进行 比较 。 一 般 来 说 ， 对 比较 简单 的 问题 ， 我 们 的 评测 标准 是 
需要 多 少 步 训练 就 可 以 稳定 地 达到 理想 的 分 数 ， 并 希望 需要 的 训练 步 数 
越 少 越 好 ; 对 于 比较 复杂 的 问题 ， 我 们 并 不 知道 理想 的 分 数 是 多 少 ， 
此 一 般 是 希望 获得 的 分 数 越 高 越 好 。 用 户 可 以 上 传 算法 到 gym 并 让 同行 审 
议 ， 其 中 如 果 提 出 非常 有 效 的 新 算法 、 新 技巧 ， 并 且 能 被 其 他 研究 者 复 
现 ， 那 对 相关 领域 的 研究 会 有 很 大 价值 。 


下 面 就 使 用 TensorFlow 创 建 一 个 基于 策略 网 络 的 Agent 来 解决 CartPole 
问题 。 我 们 先 安 装 OpenAI Gym。 本 节 代 码 主 要 来 自 DeepRL-Agents 的 开 
源 实现 。 

pip install gym 

接着 ， 载 入 NumPy、TensorFlow 和 gym。 这 里 用 gym.make('CartPole- 
Vv0') 创 建 CartPole 问 题 的 环境 env。 


import numpy as np 
import tensorflow as tf 
import gym 


env = gym.make('CartPole-v@' ) 


先 测试 在 CartPole 环 境 中 使 用 随机 Action 的 表现 ， 作 为 接 下 来 对 比 的 
baseline。 首先 ， 我 们 使 用 env.reset() 初 始 化 环境 ， 然 后 进行 10 次 随机 试 


验 ， 这 里 调用 envrender0 将 CartpPole 问 题 的 图 像 泻 染 出 来 。 使 用 
np.random.randint(0,2) 产 生 随 机 的 Action ， 然 后 用 envstepO 执 行 随机 的 
Action ， 并 获取 返回 的 observation 、reward 和 done。 如 果 done 标 记 为 
True， 则 代表 这 次 试验 结束 ， 即 倾角 超过 15 度 或 者 偏离 中 心 过 远 导 致 任务 
失败 。 在 一 次 试验 结束 后 ， 我 们 展示 这 次 试验 累计 的 奖励 reward_sum 并 
重启 环境 。 


env.reset() 
random_episodes = 6 
reward_sum = @ 


while random_episodes < 10: 


env.render() 


observation, reward, done, = env.step(np.random.randint(@, 2) ) 


reward_sum += reward 

if done: 
random_episodes += 1 
print( "Reward for this episode was:",reward_sum) 
reward_sum = 6 


env.reset() 


可 以 看 到 随机 策略 获得 的 奖励 总 值 差不多 在 10~40 之 间 ， 均 值 应 该 在 
20~30， 这 将 作为 接 下 来 用 来 对 比 的 基准 。 我 们 将 任务 完成 的 目标 设 定 为 
拿 到 200 的 Reward， 并 希望 通过 尽量 少 次 数 的 试验 来 完成 这 个 目标 。 


Reward for this episode was: 12.6 
Reward for this episode was: 17.0 
Reward for this episode was: 20.0 
Reward for this episode was: 44.0 
Reward for this episode was: 28.0 
Reward for this episode was: 19.0 
Reward for this episode was: 13.0 
Reward for this episode was: 30.0 
Reward for this episode was: 20.0 
Reward for this episode was: 26.0 


我 们 的 策略 网 络 使 用 简单 的 带 有 一 个 隐 含 层 的 MLP。 先 设置 网 络 的 
各 个 超 参 数 ， 这 里 隐 含 节点 数 H 设 为 50，batch_size 设 为 25， 学 习 速 率 
learning_rate 为 0.1， 环 境 信息 observation 的 维度 D 为 4，gamma 即 Reward 的 
discount 比 例 设 为 0.99。 在 估算 Action 的 期 望 价值 〈 即 估算 样本 的 学 习 目 
标 ) 时 会 考虑 Delayed Reward， 会 将 某 个 Action 之 后 获得 的 所 有 Reward 做 
discount 并 办 加 起 来 ， 这 样 可 以 让 模型 学 习 到 未 来 可 能 出 现 的 潜在 
Reward。 注意 ， 一 般 discount 比 例 要 小 于 1， 防 止 Reward 被 无 损耗 地 不 断 
累加 导致 发 散 ， 这 样 也 可 以 区 分 当前 Reward 和 未 来 Reward 的 价值 (当前 
Action 直 接 带 来 的 Reward 不 需要 discount， 而 未 来 的 Reward 因 存在 不 确定 
性 所 以 需要 discount) 。 


H = 56 
batch_size = 25 


learning rate = le-1 
D = 4 


gamma = @.99 


下 面 定 义 策略 网 络 的 具体 结构 。 这 个 网 络 将 接受 observations 作 为 输 
入 信息 ， 最 后 输出 一 个 概率 值 用 以 选择 Action (我 们 只 有 两 个 Action， 向 
左 施加 力 或 者 向 右 施 加 力 ， 因 此 可 以 通过 一 个 概率 值 决 定 ) 。 我 们 创建 
输 入 fs & observations 的 placeholder, 其 维度 为 D。 然 后 使 用 
tf.contrib.layers.xavier_initializer 初 始 化 算法 创建 隐 含 层 的 权重 W1， 其 维度 
为 [D,H]。 接 着 用 tt.matmul 将 环境 信息 observation 乘 上 W1 再 使 用 ReLU 激 活 


孙 数 处 理 得 到 隐 含 层 输出 layer1 ， 这 里 注意 我 们 并 不 需要 加 偏 置 。 同 样 用 
xavier_initializer 算 法 创建 最 后 Sigmoid 输 出 层 的 权重 wW2， 将 隐 含 层 输 出 
layer1 乘 以 W2 后 ， 使 用 Sigmoid 激 活 函 数 处 理 得 到 最 后 的 输出 概率 。 


observations = tf.placeholder(tf.float32, [None,D] , name="input _x") 

W1 = tf.get_variable("W1", shape=[D, H], 
initializer=tf.contrib.layers.xavier_initializer()) 

layer1 = tf.nn.relu(tf.matmul(observations,W1) ) 

W2 = tf.get_variable("W2", shape=[H, 1], 
initializer=tf.contrib.layers.xavier_initializer()) 

score = tf.matmul(layer1,W2) 


probability = tf.nn.sigmoid(score) 


这 里 模型 的 优化 器 使 用 Adam 算 法 。 我 们 分 别 设置 两 层 神经 网 络 参 数 
的 梯度 的 placeholder -WwW1Grad 和 W2Grad ， 并 使 用 adam.apply_gradients 
定义 我 们 更 新 模型 参数 的 操作 updateGrads。 之 后 计算 参数 的 梯度 ， 当 积 
累 到 一 定 样本 量 的 梯度 ， 就 传 入 W1Grad 和 W2Grad， 并 执行 updateGrads 
更 新 模型 参数 。 这 里 注意 ， 深 度 强 化 学 习 的 训练 和 其 他 神经 网 络 一 样 ， 
也 使 用 batch training 的 方式 。 我 们 不 逐个 样本 地 更 新 参数 ， 而 是 累计 一 个 
batch_size 的 样本 的 梯度 再 更 新 参数 ， 防 止 单一 样本 随机 扰动 的 噪声 对 模 
型 带 来 不 良 影响 。 


adam = tf.train.AdamOptimizer(learning rate=learning rate) 
WiGrad = tf.placeholder(tf.float32,name="batch_grad1") 
W2Grad = tf.placeholder(tf.float32,name="batch_grad2") 
batchGrad = [W1iGrad,W2Grad] 

updateGrads = adam.apply_gradients(zip(batchGrad,tvars) ) 


下 面 定 义 函 数 discount_rewards， 用 来 估算 每 一 个 Action 对 应 的 潜在 价 
值 discount_ r。 因 为 CartPole 问 题 中 每 次 获得 的 Reward 都 和 前 面 的 Action 有 
关 ， 属 于 delayed reward。 因 此 需要 比较 精准 地 衡量 每 一 个 Action 实 际 带 来 
的 价值 时 ， 不 能 只 看 当前 这 一 步 的 Reward， 而 要 考虑 后 面 的 Delayed 
Reward。 那 些 能 让 Pole 长 时 间 保 持 在 空中 竖 直 的 Action， 应 该 拥有 较 大 的 
期 望 价值 ， 而 那些 最 终 导 致 Pole 倾 倒 的 Action， 则 应 该 拥有 较 小 的 期 望 价 
值 。 我 们 判断 越 靠 后 的 Action 的 期 望 价值 越 小 ， 因 为 它们 更 可 能 是 导致 


Pole 倾 倒 的 原因 ， 并 且 判 断 越 靠 前 的 Action 的 期 望 价值 越 大 ， 因 为 它们 长 
时 间 保 持 了 Pole 的 竖 直 ， 和 倾倒 的 关系 没有 那么 大 。 我 们 倒 推 整个 过 程 ， 
从 最 后 一 个 Action 开 始 计算 所 有 Action 应 该 对 应 的 期 望 价值 。 输 入 数据 rz 为 
每 一 个 Action 实 际 获得 的 Reward， 在 CartPole 问 题 中 ， 除 了 最 后 结束 时 的 
Action 为 0， 其 余 均 为 1。 下 面 介绍 具体 的 计算 方法 ， 我 们 定义 每 个 Action 
除 直 接 获 得 的 Reward 外 的 潜在 价值 为 running_add，running_add 是 从 后 向 
前 累计 的 ， 并 且 需 要 经 过 discount 豪 减 。 而 每 一 个 Action 的 潜在 价值 ， 即 
为 后 一 个 Action 的 潜在 价值 乘 以 衰减 系数 gamma 再 加 上 它 直 接 获 得 的 
reward， 即 running_add*gamma+r[t]。 这 样 从 最 后 一 个 Action 开 始 不 断 向 前 
累计 计算 ， 即 可 得 到 全 部 Action 的 潜在 价值 。 这 种 对 潜在 价值 的 估算 方法 
符合 我 们 的 期 里 ， 越 靠 前 的 Action 潜 在 价值 越 大 。 


def discount_rewards(r): 
discounted_r = np.zeros like(r) 
running add = 6 
for t in reversed(range(r.size)): 
running add = running add * gamma + r[t] 
discounted r[t] = running add 


return discounted_r 


我 们 定义 人 工 设 置 的 虚拟 label (下 文 会 讲解 其 生成 原理 ， 其 取 值 为 0 
或 1) 的 placeholder 一 一 input_y， 以 及 每 个 Action 的 潜在 价值 的 placeholder 
advangtages。 这 里 logl 这 的 定义 略 显 复杂 ， 我 们 来 看 一 下 loglik 到 底 代 
表 什 么 。Action 取 值 为 1 的 概率 为 probability 〈 即 策略 网 络 输出 的 概率 ) ， 
Action 取 值 为 0 的 概率 为 1-probability，label 取 值 与 Action 相 反 ， 即 label=1- 
Action。 当 Action 为 1 时 ，label 为 0， 此 时 loglik=tf.log(probability)，Action 
取 值 为 1 的 概率 的 对 数 ; 当 Action 为 0 时 ，label 为 1， 此 时 loglik=tf.log(1- 
probability)， 即 Action 取 值 为 0 的 概率 的 对 数 。 所 以 ，loglik 其 实 就 是 当前 
Action 对 应 的 概率 的 对 数 ， 我 们 将 loglik 与 潜在 价值 advantages 相 乘 ， 并 取 
负数 作为 损失 ， 即 优化 目标 。 我 们 使 用 优化 器 优化 时 ， 会 让 能 获得 较 多 
advantages 的 Action 的 概率 变 大 ， 并 让 能 获得 较 少 advantages 的 Action 的 概 
率 变 小 ， 这 样 能 让 损失 变 小 。 通 过 不 断 的 训练 ， 我 们 便 能 持续 加 大 能 获 
得 较 多 advantages 的 Action 的 概率 ， 即 学 习 到 一 个 能 获得 更 多 潜在 价值 的 
策略 。 最 后 ， 使 用 tf.trainable_variables() 获 取 策 略 网 络 中 全 部 可 训练 的 参 
数 tvars， 并 使 用 tf.gradients 求 解 模 型 参数 天 于 loss 的 梯度 。 


input_y = tf.placeholder(tf.float32,[None,1], name="input_y”) 
advantages = tf.placeholder(tf.float32,name="reward_signal") 
loglik = tf.log(input_y*(input_y - probability) + \ 

(1 - input_y)*(input_y + probability) ) 


loss = -tf.reduce_mean(loglik * advantages) 


tvars = tf.trainable variables() 


newGrads = tf.gradients(loss,tvars) 


在 正式 进入 训练 过 程 前 ， 我 们 先 定义 一 些 参数 ，xs 为 环境 信息 
observation 的 列表 ，ys 为 我 们 定义 的 label 的 列表 ，drs 为 我 们 记录 的 每 一 个 
Action 的 Reward。 我 们 定义 累计 的 Reward 为 reward_sum ， 总 试验 次 数 
total_episodes 为 10000， 直 到 达到 获取 200 的 Reward 才 停止 训练 。 


xs,ys,drs 二 [],[],[] 
reward sum = 6 
episode number = 1 


total_episodes = 10000 


我 们 创建 默认 的 Session， 初 始 化 全 部 参数 ， 并 在 一 开始 将 render 的 标 
志 天 闭 。 因 为 render 会 融 来 比较 大 的 延迟 ， 所 以 一 开始 不 太 成 熟 的 模型 还 
没 必 要 去 观察 。 先 初始 化 CartPole 的 环境 并 获得 初始 状态 。 然 后 使 用 
sess.run 执 行 tvars 获 取 所 有 模型 参数 ， 用 来 创建 储存 参数 梯度 的 缓冲 器 
gradBuffer， 并 把 gardBuffer 全 部 初始 化 为 零 。 接 下 来 的 每 次 试验 中 ， 我 们 
将 收集 参数 的 梯度 存储 到 gradBuffer 中 ， 直 到 完成 了 一 个 batch_size 的 试 
验 ， 再 将 汇总 的 梯度 更 新 到 模型 参数 。 


with tf.Session() as sess: 
rendering = False 
init = tf.global_ variables initializer() 


sess.run(init) 


observation = env.reset() 


gradBuffer = sess.run(tvars) 
for ix,grad in enumerate(gradBuffer): 


gradBuffer[ix] = grad * 6 


下 面 进 入 试验 的 循环 ， 最 大 循环 次 数 即 为 total_episodes。 当 某 个 
batch 的 平均 Reward 达 到 100 以 上 时 ， 即 Agent 表 现 恨 好 时 ， 调 用 
env.render() 对 试验 环境 进行 展示 。 先 使 用 tf.reshape 将 observation 变 形 为 策 
略 网 络 输入 的 格式 ， 然 后 传 入 网 络 中 ， 使 用 sess.run 执 行 probability 获 得 网 
络 输出 的 概率 tfprob， 即 Action 取 值 为 1 的 概率 。 接 下 来 我 们 在 (0，1) 间 
随机 抽样 ， 若 随机 值 小 于 tfprob， 则 令 Action 取 值 为 1， 否 则 令 Action 取 值 
为 0， 即 代表 Action 取 值 为 1 的 概率 为 tfprob。 


while episode_number <= total_episodes: 


if reward_sum/batch_size > 100 or rendering == True : 
env.render() 


rendering = True 
x = np.reshape(observation, [1,D]) 


tfprob = sess.run(probability,feed_dict={observations: x}) 


action = 1 if np.random.uniform() < tfprob else @ 


然后 将 输入 的 环境 信息 observation 添 加 到 列表 xs 中 。 这 里 我 们 制造 虚 
拟 的 label 一 一 y， 它 取 值 与 Action 相 反 ， 即 y=1-action， 并 将 其 添加 到 列表 
ys 中 。 然 后 使 用 env.step 执 行 一 次 Action， 获 取 observation、reward、done 
和 info， 并 将 reward 累 加 到 reward_sum， 同 时 将 reward 添 加 到 列表 drs 中 。 


xs.append(x) 
y = 1 - action 


ys.append(y) 


observation, reward, done, info = env.step(action) 


reward_sum += reward 


drs.append(reward) 


当 done 为 True， 即 一 次 试验 结束 时 ， 将 episode_numer 加 1。 同时 使 用 
np.vstack 将 几 个 列表 xs、ys、drs 中 的 元 素 纵向 堆 芭 起来， 得 到 epx、epy 和 
epr， 并 将 xs、ys、drs 清 空 以 备 下 次 试验 使 用 。 这 里 注意 ，epx、epy、 drs 
即 为 一 次 试验 中 获得 的 所 有 observation、]label、reward 的 列表 。 我 们 使 用 
前 面 定义 好 的 discount_rewards 图 数 计算 每 一 步 Action 的 潜在 价值 ， 并 进行 
标准 化 〈 减 去 均值 再 除 以 标准 差 ) ， 得 到 一 个 零 均 值 标准 差 为 1 的 分 布 。 
这 么 做 是 因为 discount_reward 会 参与 到 模型 损失 的 计算 ， 而 分 布 稳定 的 
discount_rewad 有 利于 训练 的 稳定 。 


if done: 
episode number += 1 
epx = np.vstack(xs) 
epy = np.vstack(ys) 
epr = np.vstack(drs) 


xs,ys,drs = (1,0),0] 


discounted_epr = discount_rewards(epr) 
discounted_epr -= np.mean(discounted_epr) 


discounted_epr /= np.std(discounted_epr) 


我 们 将 epx、epy 和 discounted_epr 输 入 神经 网 络 ， 并 使 用 操作 
newGrads 求 解 梯度 。 再 将 获得 的 梯度 累加 到 gradBuffer 中 去 。 


tGrad = sess.run(newGrads, feed dict={observations: epx, 
input_y: epy, advantages: discounted_epr}) 
for ix,grad in enumerate(tGrad): 


gradBuffer[ix] += grad 


当 进 行 试 验 的 次 数 达 到 batch_size 的 整 倍数 时 ，gradBuffer 中 就 累计 了 
足够 多 的 梯度 ， 因 此 使 用 updateGrads 操 作 将 gradBuffer 中 的 梯度 更 新 到 策 
略 网 络 的 模型 参数 中 ， 并 清空 gradBuffer， 为 计算 下 一 个 batch 的 梯度 做 准 
备 。 这 里 注意 ， 我 们 是 使 用 一 个 batch 的 梯度 更 新 参数 ， 但 是 每 一 个 梯度 
是 使 用 一 次 试验 中 全 部 样本 (一 个 Action 对 应 一 个 样本 ) 计算 出 来 的 ， 
此 一 个 batch 中 的 样本 数 实际 上 是 25 (batch_size) 次 试验 的 样本 数 之 和 。 
同时 ， 我 们 展示 当前 的 试验 次 数 episode_number， 和 batch 内 每 次 试验 平均 
获得 的 reward。 当 我 们 batch 内 每 次 试验 的 平均 reward 大 于 200 时 ， 我 们 的 
策略 网 络 就 成 功 完成 了 任务 ， 并 将 终止 循环 。 如 果 没 有 达到 目标 ， 则 清 
空 reward_sum， 重 新 累计 下 一 个 batch 的 总 reward。 同 时 ， 在 每 次 试验 结束 
后 ， 将 任务 环境 env 重 置 ， 方 便 下 一 次 试验 。 


if episode number % batch_size == 
sess.run(updateGrads, feed _dict={WiGrad: gradBuffer[@], 
W2Grad: gradBuffer[1]}) 
for ix,grad in enumerate(gradBuffer) : 


gradBuffer[ix] = grad * @ 


print('Average reward for episode %d : %f.' % \ 


(episode_ number,reward_sum/batch_size) ) 

if reward_sum/batch_size > 200: 
print("Task solved in",episode_number, ‘episodes! ') 
break 


reward_sum = 6 


observation = env.reset() 


下 面 是 我 们 模型 的 训练 日 志 ， 可 以 看 到 策略 网 络 在 仅 经 历 了 200 次 试 
验 ， 即 8 个 batch 的 训练 和 参数 更 新 后 ， 就 实现 了 我 们 的 目标 ， 达 到 了 batch 
内 平均 230 的 reward， 顺 利 完 成 预 设 的 目标 。 有 兴趣 的 读者 可 以 党 试 修 改 
策略 网 络 的 结构 、 隐 含 节点 数 、batch_size、 学 习 速 率 等 参数 来 党 试 优 化 
策略 网 络 的 训练 ， 加 快 其 学 习 到 好 策略 的 速度 。 


Average reward for episode 25 : 19.200000. 
Average reward for episode 50 : 30.680000. 
Average reward for episode 75 : 41.360000. 
Average reward for episode 100 : 52.160000. 
Average reward for episode 125 : 70.680000. 
Average reward for episode 150 : 84.520000. 
Average reward for episode 175 : 153.320000. 


Average reward for episode 200 : 230.400000. 


Task solved in 200 episodes! 


8.3 ”TensorFlow 实 现 估 值 网 络 


在 强化 学 习 中 ， 除 了 Policy Based 直 接 选 择 Action 的 方法 ， 还 有 一 种 
学 习 Action 对 应 的 期 望 价值 (Expected Utility) 的 方法 ， 称 为 Q-Learnings5 
o Q-Learning 最 早 于 1989 年 由 Watkins 提 出 ， 其 收敛 性 于 1992 年 由 Watkins 
和 Dayan 共 同 证 明 。Q-Learning 学 习 中 的 期 望 价值 指 从 当前 的 这 一 步 到 所 
BRAD, 总共 可 以 期 望 获取 的 最 大 价值 ( 即 Q 值 ， 也 可 称 为 
Value) 。 有 了 这 个 Action > Q 的 函数 ， 我 们 的 最 佳 策略 就 是 在 每 一 个 state 
下 ， 选 择 Q 值 最 高 的 Action。 和 了 Policy Based 方 法 一 样 ，Q-Learning 不 依赖 
环境 模型 。 在 有 限 马 尔 科 夫 决 策 过 程 (Markov Decision Process) 中 ，Q- 
Learning 被 证 明 最 终 可 以 找到 最 优 的 策略 。 


Q-Learning 的 目标 是 求解 函数 O (s,' a,)， 即 根据 当前 环境 状态 ， 估 算 


Action 的 期 望 价值 。Q-Leaming 训 练 模型 的 基本 思路 也 非常 简单 ， 它 以 
(状态 、 行 为 、 奖 励 、 下 一 个 状态 ) 构成 的 元 组 (s, ,a, ,rs ,si ) 为 样本 进 


行 训练 ， 其 中 s, 为 当前 的 状态 ，a 为 当前 状态 下 执行 的 Action，r, ,i 为 在 


执行 Action 后 获得 的 奖励 ，s, , 为 下 一 个 状态 。 其 中 特征 是 (s,,a,) ， 而 
学 习 目 标 〈 即 期 望 价值 ， 则 是 r,,, +y: max , O (s,,, ,a )， 这 个 学 习 目 标 即 是 
当前 Action 获 得 的 Reward 加 上 下 一 步 可 获得 的 最 大 期 望 价值 。 学 习 目标 中 
包含 了 Q-Learning 的 函数 本 身 ， 所 以 这 其 中 使 用 了 递归 求解 的 思想 。 下 一 
步 可 获得 的 最 大 期 望 价值 被 乘 以 一 个 y ， 即 衰减 系数 discount factor， 这 个 
参数 决定 了 未 来 奖励 在 学 习 中 的 重要 性 。 如 果 discount factor 为 0， 那 么 模 
型 将 学 习 不 到 任何 未 来 奖励 的 信息 ， 将 会 变 得 短视 ， 只 关注 当前 的 利 
w, WWRdiscount factor 大 于 等 于 1， 那 算法 很 可 能 无 法 收 你 ， 期 望 价值 将 
被 不 断 累 加 并 且 没 有 衰减 (Bldiscount) ， 这 样 期 望 价值 很 可 能 会 发 散 。 
因此 ，discount factor 一 般 会 被 设 为 一 个 比 1 稍 小 的 值 。 我 们 可 以 把 整个 Q- 
Learning 学 习 的 过 程 写 成 下 面 这 个 式 子 : 


Qnew (Se ar) 和 (1 = a) ` Qoia(sb ar) +a: (re ays max Q (Sta. a)) 


简单 描述 这 个 公式 是 ， 将 旧 的 Q-Leaming 国 数 Q_ ，(s, ,a )， 向 着 学 习 
目标 〈 当 前 获得 的 Reward 加 上 下 一 步 可 获得 的 最 大 期 望 价值 ) 按 一 个 较 
小 的 学 习 速率 学 习 ， 得 到 新 的 Q-Learming 国 数 Q ，, (s, ,a )。 其 中 学 习 速 
率 决 定 了 我 们 使 用 新 获取 的 样本 信息 覆盖 之 前 掌握 到 的 信息 的 比率 ， 通 
常设 为 一 个 比较 小 的 值 ， 可 以 保证 学 习 过 程 的 稳定 ， 同 时 确保 最 后 的 收 
你 性 。 同 时 ，Q-Learning 需 要 一 个 初始 值 o, ， 而 比较 高 的 初始 值 可 以 鼓 


励 模 型 多 进行 探索 。 


我 们 用 来 学 习 Q-Learning 的 模型 可 以 是 神经 网 络 ， 这 样 得 到 的 模型 即 
是 估 值 网 络 。 如 果 其 中 的 神经 网 络 比 较 深 ， 那 就 是 DQN。DQN 这 一 说 
法 ， 是 由 Google DeepMind 发 表 于 Nature 的 论文 Human-level control through 
deep reinforcement learning 提出 的 ， 在 这 篇 论文 中 DeepMind 使 用 DQN 创 
建 了 达到 人 类 专家 水 平 的 可 以 玩 Atari 2600 系 列 游戏 的 Agent。 相 比 于 早期 
Q-Learning 使 用 的 简单 模型 ，DeepMind 的 DQN 有 了 很 多 方面 的 改进 。 下 
面 我 们 将 逐一 介绍 目前 state of the art 的 DQN 中 的 一 些 Trick。 


第 1 个 Trick， 我 们 需要 在 DQN 中 引入 卷 积 层 。 我 们 不 再 是 输入 一 些 数 
值 类 的 特征 让 模型 学 习 ， 而 是 直接 让 模型 通过 Atari 这 类 游戏 的 视频 图 像 
了 解 环境 信息 并 学 习 策 略 。 这 样 就 必须 让 DQN 能 理解 它 所 接收 到 的 图 
像 ， 即 具有 一 定 的 图 像 识别 能 力 ， 因 此 我 们 就 需要 用 到 前 几 章 提 到 的 卷 
积 神经 网 络 。 卷 积 神经 网 络 的 具体 原理 前 面 几 章 讲解 过 ， 它 利用 可 提取 


空间 结构 信息 的 卷 积 层 来 抽取 特征 。 卷 积 层 可 以 提取 图 像 中 重要 目标 的 
特征 并 传 给 后 面 的 层 来 做 分 类 或 者 回归 ， 比 如 第 6 章 中 的 VGG Net 和 
Inception Net。 但 DQN 不 同 ， 它 使 用 卷 积 层 不 是 用 来 对 图 像 做 分 类 ， 而 是 
进行 强化 学 习 的 训练 ， 其 目标 是 根据 环境 图 像 输出 决策 。 通 党 在 设计 
DQN 时 ， 如 果 输 入 是 图 像 ， 那 么 最 前 面 几 层 一 般 都 会 设置 成 卷 积 层 ， 如 
图 8-9 所 示 。 本 节 将 要 实现 的 DQN 的 前 4 层 也 都 是 卷 积 层 。 
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图 8-9 Deep Q-Network 中 的 多 层 卷 积 结构 


第 2 个 Trick 是 Experience Replay。 因 为 深度 学 习 需 要 大 量 的 样本 ， 所 
以 传统 的 Q-Learning 的 online update 的 方法 (逐一 对 新 样本 学 习 的 方式 ) 
可 能 不 太 适 合 DQN。 因 此 ， 我 们 需要 增 大 样本 量 ， 并 且 像 VGGNet 或 
Inception Net 那 样 进行 多 个 epoch 的 训练 ， 对 图 像 进行 反复 利用 。 我 们 引入 
一 种 被 称 为 Experience Replay 的 技术 ， 它 的 主要 思想 就 是 储存 Agent 的 
Experience ( 即 样本 ) ， 并 且 每 次 训练 时 随机 抽取 一 部 分 样本 供给 网 络 学 
习 。 这 样 我 们 能 比较 稳定 地 完成 学 习 任务 ， 避 免 只 短视 地 学 习 到 最 新 接 
触 到 的 样本 ， 而 是 综合 地 、 反 复 地 利用 过 往 的 大 量 样本 进行 学 习 。 我 们 
会 创建 一 个 用 来 储存 Experience 的 缓存 buffer， 它 里 面 可 以 储存 一 定量 的 
比较 新 的 样本 。 当 容量 满 了 以 后 ， 会 用 新 样本 替换 最 旧 的 样本 ， 这 可 以 
保证 大 部 分 样本 有 相近 的 概率 被 抽 到 ， 如 果 不 替 换 旧 的 ， 那 么 从 一 开始 
就 获得 的 旧 样 本 ， 在 整个 训练 过 程 中 被 抽 到 的 概率 会 比 新 样本 高 很 多 。 
每 次 需要 训练 样本 时 ， 就 直接 从 buffer 中 随机 抽取 一 定量 的 样本 给 DQN 训 


练 ， 这 样 可 以 保持 对 样本 较 高 的 利用 率 ， 同 时 可 以 让 模型 学 习 到 比较 新 
的 一 批 样本 。 


第 3 个 Trick， 我 们 可 以 再 使 用 第 二 个 DQN 网 络 来 辅助 训练 ， 这 个 辅助 
网 络 一 般 称 为 target DQN， 它 的 意义 是 辅助 我 们 计算 目标 Q 值 ， 即 提供 学 
习 目 标 公 式 里 的 max ,O (s,,, ,a )。 我 们 之 所 以 要 拆 分 为 两 个 网 络 ， 一 个 用 
来 制造 学 习 目 标 ， 一 个 用 来 进行 实际 训练 ， 原 因 很 简单 ， 是 为 了 让 Q- 
Learning 训 练 的 目标 保持 平稳 。 强 化 学 习 及 Q-Learning 不 像 普通 的 监督 学 
习 ， 它 的 学 习 目 标 每 次 都 是 变化 的 ， 因 为 学 习 目 标的 一 部 分 是 模型 本 身 
输出 的 。 每 次 更 新 模型 参数 都 会 导致 我 们 的 学 习 目 标 发 生变 化 ， 如 果 更 
新 很 频繁 、 幅 度 很 大 ， 我 们 的 训练 过 程 就 会 非常 不 稳定 并 且 失 控 。 这 样 
DQN 的 训练 就 会 陷入 目标 Q 值 与 预测 Q 值 的 反馈 循环 中 (陷入 震荡 发 散 ， 
难以 收敛 ) 。 为 了 降低 这 种 影响 ， 需 要 让 目标 Q 值 尽量 平稳 ， 因 此 需要 一 
个 比较 稳定 的 target DQN 辅 助 网 络 计 算 目 标 Q 值 。 我 们 让 target DQN 进 行 
低频 率 或 者 缓慢 的 学 习 ， 这 样 它 输出 的 目标 Q 值 的 波动 也 会 比较 小 ， 可 以 
减 小 对 训练 过 程 的 影响 。 


第 4 个 Trick， 如 果 在 分 拆 出 target DQN 的 方法 上 更 进一步 ， 那 就 是 
Double DQN。 DeepMind 的 研究 者 在 论文 Deep Reinforcement Learning with 
Double Q-Learning 中 发 现 ， 传 统 的 DQN 通 常会 高 估 Action 的 Q 值 。 如 果 这 
种 高 估 不 是 均匀 的 ， 可 能 会 导致 本 来 次 优 的 某 个 Action 总 是 被 高 估 而 超过 
了 最 优 的 Action， 那 将 给 训练 和 选择 Action 带 来 很 大 的 麻烦 ， 我 们 可 能 永 
远 都 发 现 了 不 了 最 优 的 Action。 因 此 ， 在 DeepMind 这 篇 论文 中 提出 了 可 
以 在 DQN 中 也 使 用 Double Q-Learmning 的 方法 。 我 们 之 前 是 让 target DQN 完 
全 负责 生成 目标 Q 值 ， 即 先 产生 O (s,,, ,a )， 再 通过 max 选择 最 大 的 Q 值 。 


Double DQN 则 是 修改 了 第 二 步 ， 不 是 直接 选择 target DQN 上 最 大 的 Q 值 ， 

而 是 在 我 们 的 主 DQN 上 通过 其 最 大 Q 值 选择 Action， 再 去 获取 这 个 Action 
在 target DQN 上 的 Q 值 。 这 样 我 们 的 主 网 络 负责 选择 Action， 而 这 个 被 选 
定 的 Action 的 Q 值 则 由 target DQN 和 生成。 被 选择 的 Q 值 ， 不 一 定 总 是 最 大 的 
Q 值 ， 这 样 就 避免 了 被 高 估 的 次 优 Action 总 是 超过 最 优 的 Action， 导 致 我 
们 发 现 不 了 真正 最 好 的 Action。 我 们 的 学 习 目 标 因 此 可 以 写成 下 面 的 式 
Te 


Target = reaa +Y ` Qtarget (Gr argmaxa(Qmain (Stat, a))) 


第 5 个 Trick 是 Dueling DQN， 也 是 DQN 的 一 个 重大 改进 ， 在 Google 的 
论文 Dueling Network Architectures for Deep Reinforcement Learning 中 被 首 
Rte. Dueling DQN 将 Q 值 的 阔 数 Qks,,a, ) 拆 分 为 两 部 分 ， 一 部 分 是 静态 
的 环境 状态 本 身 具有 的 价值 V (s, )， 称 为 Value; 另 一 部 分 是 动态 的 通过 选 
择 某 个 Action 额 外 带 来 的 价值 A(a )， 称 为 Advantage。 我们 的 Q 值 将 由 这 
两 部 分 组 合 而 成 ， 可 以 写成 下 面 这 个 公式 。 

Q(s, ,a =V (s, )+ A (a, ) 


Dueling 的 目标 就 是 让 网 络 可 以 分 别 计算 环境 本 身 的 Value 和 选择 
Action 带 来 的 Advantage， 这 里 的 Advantage 是 某 个 Action 与 其 他 Action 的 比 
较 ， 因 此 我 们 将 它 设计 为 零 均 值 的 。 如 图 8-10 所 示 ， 上 面 那 部 分 是 传统 的 
DQN 网 络 ， 下 面 的 就 是 Dueling DQN 了 ， 在 网 络 的 最 后 部 分 ， 不 再 是 直接 
输出 Action 数 量 〈 假 定 为 n) 的 Q 值 ， 而 是 输出 一 个 Value 值 及 n 个 
Advantage 值 ， 然 后 将 V 值 分 别 加 到 每 一 个 Advanatge 值 上 ， 得 到 最 后 的 结 
果 。 这 样 做 的 目的 是 让 DQN 的 学 习 目 标 更 明确 ， 如 果 当 前 的 期 望 价值 主 
要 是 由 环境 状态 决定 的 ， 那 么 Value 值 很 大 ， 而 所 有 Advantage 的 波动 都 不 
大 ;如 果 期 望 价 值 主要 由 Action 决 定 ， 那 么 Value 值 很 小 ， 而 Advantage 疲 
动 会 很 大 ， 分 解 这 两 个 部 分 会 让 我 们 的 学 习 目 标 更 稳定 、 更 精确 ， 让 
DQN 对 环境 状态 的 估计 能 力 更 强 。 


下 面 我 们 就 实现 带 有 前 面 几 个 Trick 的 DQN。 使 用 的 任务 环境 是 叫 作 
GridWorld 的 导航 类 游戏 ， 如 图 8-11 所 示 。GridWorld 中 包含 一 个 hero (K 
际 为 蓝 色 ， 这 里 以 白色 显示 ) 4 个 goal (实际 为 绿色 ， 这 里 以 浅 灰 表示 ) 
和 2 个 fire (实际 为 红色 ， 这 里 以 深 灰 色 表 示 ) 。 我 们 的 目标 就 是 控制 hero 
移动 ， 每 次 向 上 、 下 、 左 、 右 等 方向 移动 一 步 ， 尽 可 能 多 地 触 碰 goal ( 奖 
励 值 为 1) ， 同 时 避 开 fire (奖励 值 为 -1) 。 游 戏 的 目标 是 在 限定 步 数 内 拿 
到 最 多 的 分 数 。 我 们 的 Agent 将 直接 通过 GridWworld 的 图 像 学 习 控制 hero 移 
动 的 最 优 策 略 。 
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图 8-11 ”GridWorld 游 戏 环 境 示例 


下 面 开 始 创 建 GridWorld 任 务 的 环境 。 首 先是 载 入 各 种 依赖 的 库 ， 这 
次 需要 载 入 的 库 相 对 较 多 ， 其 中 itertools 可 以 方便 地 进行 迭代 操作 ， 
scipymisc 和 matplotlib.pyplot 可 以 绘图 。 同 时 因为 训练 时 间 较 长 ， 我 们 也 
载 入 os 用 来 定期 储存 模型 文件 。 本 节 代 码 主 要 来 自 DeepRL-Agents 的 开源 


实现 s 。 


import 
import 
import 
import 
import 


import 


import 


numpy as np 
random 

itertools 

scipy.misc 
matplotlib.pyplot as plt 


tensorflow as tf 


os 


%matplotlib inline 


先是 创建 环境 内 物体 对 象 的 class， 环 境 物 体 包 括 以 下 几 个 属性 : 
coordinates 《xy 坐标 ) ~ size (R) 、intensity (亮度 值 ) 、channel 
(RGB 颜色 通道 ) 、reward (AB) ， 以 及 name (名 称 ) o 


class gameOb(): 


def _ init__(self, coordinates, size, intensity, channel, reward,name) : 


self.x = coordinates[@] 
self.y = coordinates[1] 
self.size = size 
self.intensity = intensity 
self.channel = channel 
self.reward = reward 


self.name = name 


然后 创建 GridWorld 环 境 的 class ， 其 初始 化 方法 只 需要 传 入 一 个 参 
数 ， 即 环境 的 size。 我 们 将 环境 的 长 和 宽 都 设 为 输入 的 size， 同 时 将 环境 
BY Action Space 设 为 4， 并 初始 化 环境 的 物体 对 象 的 列表 。 调 用 self.reset() 
方法 重 置 整个 环境 ， 得 到 初始 的 observation ( 即 GridWorld 的 图 像 ) ， 并 
使 用 plt.imshow 将 observation 展 示 出 来 。 


class gameEnv(): 
def _init__(self, size): 
self.sizeX = size 
self.sizeY = size 
self.actions = 4 
self.objects = [] 
a = self.reset() 


plt.imshow(a, interpolation="nearest" ) 


接 下 来 定义 环境 的 reset 方 法 。 我 们 将 创建 所 有 GridWorld 中 的 物体 ， 
包括 1 个 hero (用 户 控 制 的 对 象 ) 、4 个 goal (reward 为 1) 、2 个 fire 
(reward 为 -1) ， 并 把 他 们 添加 到 物体 对 象 的 列表 self.objects。 创 建物 体 
的 位 置 时 使 用 self.newPosition()， 该 方法 会 随机 选择 一 个 没有 被 占用 的 新 
位 置 。 所 有 物体 的 size 和 intensity 均 为 1， 其 中 hero 的 channel 为 2( 蓝 色 ) ， 
goal 的 channel 为 1 (绿色 ) ，fire 的 channel 为 0 (红色 ) 。 最 后 我 们 使 用 
self.renderEnv() 将 GridWworld 的 图 像 绘 制 出 来 ， 即 state。 


def reset(self): 
self.objects = [] 
hero = gameOb(self.newPosition(),1,1,2,None, ‘hero’ ) 
self.objects.append(hero) 
goal = gameOb(self.newPosition(),1,1,1,1, ‘goal’ ) 
self.objects.append(goal) 
hole = gameOb(self.newPosition(),1,1,0,-1, ‘fire’ ) 
self.objects.append(hole) 
goal2 = gameOb(self.newPosition(),1,1,1,1, 'goal') 
self.objects.append(goal2) 
hole2 = gameOb(self.newPosition(),1,1,0,-1, ‘fire’ ) 
self.objects.append(hole2) 
goal3 = gameOb(self.newPosition(),1,1,1,1, ‘goal’ ) 
self.objects.append(goal3) 
goal4 = gameOb(self.newPosition(),1,1,1,1, 'goal') 
self.objects.append(goal4) 
state = self.renderEnv() 
self.state = state 


return state 


这 里 我 们 实现 移动 英雄 角色 的 方法 ， 我 们 传 入 的 值 为 0"(、1、2、3 这 
四 个 数字 ， 分 别 代表 上 、 下 、 左 、 右 。 函 数 根据 输入 来 操作 英雄 的 移 
动 ， 但 如 果 移动 该 方向 会 导致 英雄 出 界 ， 则 不 会 进行 任何 移动 。 


def moveChar(self,direction): 
hero = self.objects[@] 
heroX = hero.x 


heroY = hero.y 


if direction == @ and hero.y >= 1: 
hero.y -= 1 
if direction == 1 and hero.y <= self.sizeyY-2: 


hero.y += 1 


if direction == 2 and hero.x >= 1: 
hero.x -= 1 

if direction == 3 and hero.x <= self.sizeX-2: 
hero.x += 1 


self.objects[@] = hero 


然后 定义 刚才 提 到 的 newPosition 方 法 ， 它 可 以 选择 一 个 跟 现 有 物体 
不 冲突 的 位 置 。itertools.product 方 法 可 以 得 到 几 个 变量 的 所 有 组 合 ， 使 用 
这 个 方法 创建 环境 size 允 许 的 所 有 位 置 的 集合 points， 并 获取 目前 所 有 物 
体位 置 的 集合 currentPositions， 再 从 points 中 去 掉 currentPositions， 剩 下 的 
就 是 可 用 的 位 置 。 最 后 使 用 np.random.choice 随 机 抽取 一 个 可 用 位 置 并 返 
回 。 


def newPosition(self): 
iterables = [ range(self.sizeX), range(self.sizeyY) ] 
points = [] 
for t in itertools.product(*iterables): 
points.append(t) 
currentPositions = [] 
for objectA in self.objects: 
if (objectA.x,objectA.y) not in currentPositions: 
currentPositions.append((objectA.x,objectA.y) ) 
for pos in currentPositions: 
points.remove(pos) 
location = np.random.choice(range(len(points) ),replace=False) 


return points[ location] 


BIE XM checkGoalki2X, FAK Shere hha 7 colMAfire. FÈ 
们 先 从 objects 中 获取 hero， 并 将 其 他 物体 对 象 放 到 others 列 表 中 。 然 后 遍 
历 others 列 表 ， 如 果 有 物体 和 坐标 与 hero 完 全 一 致 ， 那 么 可 判定 为 触 碰 。 
接 下 来 根据 触 磁 到 的 是 什么 物体 ， 我 们 销毁 该 物体 ， 并 调用 
self.newPosition() 方 法 在 随机 位 置 重新 生成 一 个 该 物体 ， 并 返回 这 个 物体 
的 reward 值 (goal 为 1，fire 为 -1) 。 


def checkGoal(self): 
others = [] 


for obj in self.objects: 


if obj.name == 'hero': 
hero = obj 
else: 
others. append(obj) 
for other in others: 
if hero.x == other.x and hero.y == other.y: 
self.objects.remove(other) 
if other.reward == 
self.objects.append(gameOb(self.newPosition(),1,1,1,1, 
"goal')) 
else: 
self.objects.append(gameOb(self.newPosition(),1,1,90,-1, 
'fire')) 
return other.reward,False 


return 0.0,False 


先 创建 一 个 长 宽 为 size+2， 颜 色 通道 数 为 3 的 图 片 ， 初 始 值 全 部 为 1， 
代表 全 为 白色 。 然 后 把 最 外 边 一 圈 内 部 的 像素 的 颜色 值 全 部 赋 为 0， 代 表 
黑色 。 遍 历 物体 对 象 的 列表 self.objects， 并 设置 这 些 物体 的 亮度 值 。 同 
时 ， 使 用 scipymisc.imresize 将 图 像 从 原始 大 小 resize 为 84x84x3 的 尺寸 ， 即 
一 个 正常 的 游戏 图 像 尺 寸 。 


def renderEnv(self): 
a = np.ones([self.sizeY+2,self.sizex+2,3]) 
a[1:-1,1:-1,:] = @ 
hero = None 
for item in self.objects: 
a[Litem.y+1:item.y+item.size+1,item.x+1:item.x+item.size+1, 


item.channel] = item.intensity 


b = scipy.misc.imresize(a[:,:,0],[84,84,1],interp='nearest' ) 
c = scipy.misc.imresize(a[:,:,1],[84,84,1],interp='nearest' ) 
d = scipy.misc.imresize(a[:,:,2],[84,84,1],interp='nearest' ) 
a = np.stack([b,c,d],axis=2) 

return a 


最 后 定义 在 GridWorld 环 境 中 执行 一 步 Action 的 方法 。 输 入 的 参数 为 
Action ， 先 使 用 selfmoveChar(action) 移 z) hero 的 位 置 ， 再 使 用 
self.checkGoal() 检 测 hero 是 否 有 触 碰 物 体 ， 并 得 到 reward 和 done 标 记 。 然 
后 使 用 self.renderEnv 获 取 环 境 的 图 像 state， 最 后 返回 state、reward 和 
doneo 


def step(self,action): 
self.moveChar(action) 
reward,done = self.checkGoal() 
state = self.renderEnv() 


return state, reward, done 


接 下 来 调用 刚才 写 好 的 gameEnv 类 的 初始 化 方法 ， 并 设置 Size 为 5， 创 
建 一 个 5x5 大 小 的 GridWorld 环 境 ， 每 一 次 创建 的 GridWorld 环 境 都 是 随机 
生成 的 。 读 者 可 以 尝试 使 用 不 同 尺寸 的 GridWorld， 小 尺寸 的 环境 会 相对 
容易 学 习 ， 大 尺寸 的 则 较 难 ， 训 练 时 间 也 更 长 。 


env = gameEnv(size=5) 


下 面 便 是 我 们 创建 好 的 5x5 的 GridWorld 环 境 图 像 ， 如 图 8-12 所 示 ， 
为 黑白 印刷 的 原因 ， 其 中 白色 代表 hero， 浅 灰色 代表 goal (reward 为 1) ， 
深 灰 色 代 表 fire (reward 为 -1) 。 我 们 的 任务 目标 是 在 指定 步 数 (每 一 步 
可 以 选择 向 上 上、 下、 左 、 右 移动 ) 内 获得 尽 可 能 多 的 分 数 ， 我 们 每 触 碰 


一 个 物体 ， 将 会 销毁 该 物体 并 在 其 他 位 置 重建 。 因 此 ，Agent 的 目标 就 是 
避 开 fire， 同 时 多 触 磁 goal。 我 们 还 需要 规划 最 优 路 线 ， 在 有 限 步 数 内 收 
集 尽 可 能 多 的 goal。 当 然 ， 这 些 策 略 都 是 DQN 需 要 上 自己 通过 试验 来 学 习 
的 。 
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图 8-12 ”5x5 的 GridWorld 环 境 ， 和 白色 为 hero， 浅 灰色 为 goal， 深 灰色 为 fire 


下 面 我 们 就 开始 设计 DQN (Deep Q-Network) 网 络 ， 相 对 上 一 节 的 
简单 例子 ， 本 节 的 网 络 更 复杂 一 些 ， 并 且 使 用 了 卷 积 层 ， 可 以 直接 从 环 
境 的 原始 像素 中 学 习 和 策略。 输入 scalarmnput 是 被 局 平 化 的 长 为 
84x84x3=21168 的 向 量 ， 需 要 先 将 其 恢复 成 [-184,84,3] 尺 寸 的 图 片 
ImageIn。 我们 使 用 tft.contrib.layers.convolution2d 创 建 第 1 个 卷 积 层 ， 卷 积 
核 尺 寸 为 gxk8， 步 长 为 4x4， 输 出 通道 数 (filter 的 数量 ) 为 32，padding 模 
式 为 VALID 《以 下 所 有 层 padding 模 式 均 为 VALID) ，bias 初 始 化 器 为 空 。 
因为 使 用 了 4x4 的 步 长 和 VALID 模式 的 padding， 所 以 第 一 层 卷 积 的 输出 维 
度 为 20x20x32。 第 2 个 卷 积 层 尺 寸 为 4x4， 步 长 为 2x2， 输 出 通道 数 为 64， 
这 一 层 的 输出 维度 为 9x9x64。 第 3 层 卷 积 层 尺寸 为 3x3， 步 长 为 1x1， 输 出 
通道 数 为 64， 这 一 层 输 出 维度 为 7x7x64。 第 4 层 卷 积 尺 寸 为 7x7， 步 长 为 
1x1， 输 出 通道 数 一 下 涨 到 了 512， 这 一 层 的 空间 尺寸 只 允许 在 一 个 位 置 
进行 卷 积 ， 因 此 最 后 的 输出 维度 变 为 1x1x512。 


class Qnetwork(): 
def _init__(self,h_size): 
self.scalarInput = tf.placeholder(shape=[None, 21168], 
dtype=tf.float32) 

self.imageIn = tf.reshape(self.scalarInput, shape=[ -1,84,84,3]) 

self.conv1 = tf.contrib.layers.convolution2d( 
inputs=self.imageIn, num_outputs=32, 
kernel_size=[8,8],stride=[4,4], 
padding='VALID', biases_initializer=None) 

self.conv2 = tf.contrib.layers.convolution2d( 
inputs=self.conv1,num_outputs=64, kernel_size=[4,4],stride=[2,2], 
padding='VALID', biases _initializer=None) 

self.conv3 = tf.contrib.layers.convolution2d( 
inputs=self.conv2,num_outputs=64, kernel_size=[3,3],stride=[1,1], 
padding='VALID', biases_initializer=None) 

self.conv4 = tf.contrib.layers.convolution2d( 
inputs=self.conv3,num_outputs=512, 
kernel_size=[7,7],stride=[1,1], 


padding='VALID', biases _initializer=None) 


接 下 来 ， 使 用 tt.splitO0 将 第 4 个 卷 积 层 的 输出 conv4 平 均 拆 分 成 两 段 ， 
streamAC 和 streamVC， 即 Dueling DQN 中 的 Advantage Function (Action 
来 的 价值 ) 和 Value Function (环境 本 身 的 价值 。 这 里 注意 tt.split 国 数 的 
第 2 个 参数 代表 要 拆 分 成 几 段 ， 第 3 个 参数 代表 要 拆 分 的 是 第 几 个 维度 。 
然后 分 别 使 用 tf.contrib.layers.flatten 将 streamAC 和 streamVC 转 为 扁平 的 
steamA 和 streaamV。 下面 创建 streamA 和 streamvV 的 线性 全 连接 层 参 数 AW 和 
VW， 我 们 直接 使 用 tf.random_normal 初 始 化 它们 的 权重 ， 表 使 用 tf.matmul 
做 全 连接 层 的 矩阵 乘法 ， 得 到 self.Advantage 和 self.Value。 因 为 Advantage 
是 针对 Action 的 ， 因 此 输出 数量 为 Action 的 数量 ， 而 Value 则 是 针对 环境 统 

一 的 ， 输 出 数量 为 1。 我 们 的 Q 值 则 由 Value 和 Advantage 复 合 而 成 ， 即 
Value 加 上 减 去 均值 的 Advantage。 Advantage 减 去 均值 的 操作 使 用 的 是 
tf.subtract， 均 值 计 算 使 用 的 是 ttreduce_mean 国 数 (reduce_indices 为 1， 即 
代表 Action 数 量 的 维度 ) 。 最 后 输出 的 Action 即 为 Q 值 最 大 的 Action ， 这 
里 使 用 tft.argmax 求 出 这 个 Action。 


self.streamAC,self.streamVC = tf.split(self.conv4, 2,3) 
self.streamA = tf.contrib.layers.flatten(self.streamAC) 
self.streamV = tf.contrib.layers.flatten(self.streamVC) 

self.AW = tf.Variable(tf.random_normal([h_size//2,env.actions])) 
self.VW = tf.Variable(tf.random_normal([h_size//2,1])) 
self.Advantage = tf.matmul(self.streamA, self.AW) 

self.Value = tf.matmul(self.streamV, self.VW) 


self.Qout = self.Value + tf.subtract(self.Advantage,tf.reduce_mean( 
self.Advantage, reduction_indices=1,keep dims=True) ) 


self.predict = tf.argmax(self.Qout,1) 


我 们 定义 Double DQN 中 的 目标 Q 值 targetQ 的 输入 placeholder， 以 及 
Agent 的 动作 actions 的 输入 placeholder。 在 计算 目标 Q 值 时 ，action 由 主 
DQN 选 择 ，Q 值 则 由 辅助 的 target DQN 生 成 。 在 计算 预测 Q 值 时 ， 我 们 将 
scalar 形 式 的 actions 转 为 onehot 编 码 的 形式 ， 然 后 将 主 DQN 生 成 的 Qout 乘 
以 actions_onehot， 得 到 预测 Q 值 (Qout 和 actions 都 来 自主 DQN) o 


self.targetQ = tf.placeholder(shape=[None],dtype=tf.float32) 
self.actions = tf.placeholder(shape=[None],dtype=tf.int32) 
self.actions_onehot = tf.one_hot(self.actions,env.actions, 


dtype=tf.float32) 


self.Q = tf.reduce_sum(tf.multiply(self.Qout, self.actions_onehot), 


reduction_indices=1) 


接 下 来 定义 loss， 使 用 tf.square 和 tf.reduce_mean 计 算 targetQ 和 Q 的 均 
方 误差 ， 并 使 用 学 习 速 率 为 1e-4 的 Adam 优 化 器 优化 预测 Q 值 和 目标 Q 值 的 
偏差 。 


self.td_error = tf.square(self.targetQ - self.Q) 
self.loss = tf.reduce_mean(self.td error) 
self.trainer = tf.train.AdamOptimizer(learning rate= 0.0001) 


self.updateModel = self.trainer.minimize(self.loss) 


接 下 来 实现 前 面 提 到 的 Experience Replay 策 略 。 我 们 定义 
experience_buffer 的 class， 其 初始 化 需要 定义 buffer_size 即 存储 样本 的 最 大 
容量 ， 并 创建 buffer 的 列表 。 然 后 定义 向 buffer 中 添加 元 素 的 方法 ， 如 果 超 
过 了 bnuffer 的 最 大 容量 ， 就 清空 前 面 最 早 的 一 些 样本 ， 并 在 列表 末尾 添加 
新 元 素 。 然 后 在 定义 对 样本 进行 抽样 的 方法 ， 这 里 直接 使 用 
random.sample(0) 冰 数 随机 抽取 一 定数 量 的 样本 。 


class experience buffer(): 
def init (self, buffer_size = 50000): 
self.buffer = [] 


self.buffer_size = buffer_size 


def add(self,experience): 
if len(self.buffer) + len(experience) >= self.buffer_size: 
self. buffer[@: (len(experience)+len(self.buffer)) - \ 
self.buffer_size] = [] 


self.buffer.extend(experience) 


def sample(self,size): 
return np.reshape(np.array(random.sample(self.buffer,size)), 


[size,5]) 


下 面 定义 将 84x84x3 的 states 局 平 化 为 1 维 向 量 的 水 数 processState， 这 
样 做 的 主要 目的 是 后 面 堆 车 样本 时 会 比较 方便 。 


def processState(states): 
return np.reshape(states,[21168]) 


这 里 的 updateTargetGraph 疗 | 数 是 更 新 target DQN 模 型 参数 的 方法 (È 
DQN 则 是 直接 使 用 DQN class 中 的 self.updateModel 方 法 更 新 模型 参数 ) 。 
我 们 的 输入 变量 tfvars 是 TensorFlow Graph 中 的 全 部 参数 ，tau 是 target DQN 
向 主 DQN 学 习 的 速率 。 函 数 updateTargetGraph 会 取 tfvars 中 前 一 半 参 数 ， 
即 主 DQN 的 模型 参数 ， 再 令 辅 助 的 target DQN 的 参数 朝向 主 DQN 的 参数 
前 进 一 个 很 小 的 比例 〈 即 tau， 一 般 设 为 0.001) ， 这 样 做 是 让 target DQN 
缓慢 地 学 习 主 DQN。 我 们 在 训练 时 ， 目 标 Q 值 不 能 在 几 次 迭代 间 波 动 太 


大 ， 否 则 训练 会 非常 不 稳定 并 且 失 控 ， 陷 入 目标 Q 值 和 预测 Q 值 之 间 的 反 
馈 循环 中 。 因 此 ， 需 要 使 用 稳定 的 目标 Q 值 训练 主 网 络 ， 所 以 我 们 使 用 一 
个 缓慢 学 习 的 target DQN 网 络 输出 目标 Q 值 ， 并 让 主 网 络 来 优化 目标 Q 值 
和 预测 Q 值 间 的 loss ， 再 让 target DQN 跟 随 主 DQN 并 缓慢 学 习 。 国 数 
updateTargetGraph 会 创建 更 新 target DQN 模型 参数 的 操作 ， 而 函数 
updateTarget 则 直接 执行 这 些 操作 。 


def updateTargetGraph(tfVars, tau) : 
total_vars = len(tfVars) 
op_holder = [] 
for idx,var in enumerate(tfVars[@:total_vars//2]): 
op_holder.append(tfVars[idx+total_vars//2].assign((var.value() * \ 
tau) + ((1-tau)*tfVars[idx+total_vars//2].value()))) 


return op_holder 


def updateTarget(op holder,sess): 
for op in op_holder: 


sess.run(op) 


下 面 是 DQN 网 络 及 其 训练 过 程 的 一 些 参 数 。batch_size 即 每 次 从 
experience buffer 中 获取 多 少 样本 ， 设 为 32;， 更 新 频率 update_freq， 即 每 隔 
多 少 step 执 行 一 次 模型 参数 更 新 ， 设 为 4; Q 值 的 衰减 系数 (discount 
factor) y 设 为 0.99; startE 为 起 始 的 执行 随机 Action 的 概率 ; endE 为 最 终 的 
执行 随机 Action 的 概率 (在 训练 时 ， 我 们 始终 需要 一 些 随 机 Action 进 行 探 
索 ， 实 际 预测 时 则 没有 必要 ) ; anneling_steps 是 从 初始 随机 概率 降 到 最 
终 随机 概率 所 需要 的 步 数 ; num_episodes 指 总 共 进 行 多 少 次 GridWorld 环 
境 的 试验 ; pre_train_steps 代 表 正 式 使 用 DQN 选 择 Action 前 进行 多 少 步 随 
HL Action 的 测试 ; max_epLength 是 每 个 episode 进行 多 少 步 Action; 
load_model 代 表 是 否 读 取 之 前 训练 的 模型 ; path 是 模型 储存 的 路 径 ; 
h_size 是 DQN 网 络 最 后 的 全 连接 层 的 隐 含 节点 数 ; tau 是 target DQN 向 主 
DQN 学 习 的 速率 。 


batch_size = 32 


update_freq = 4 


y = .99 
startE = 1 
endE = @.1 


anneling steps = 10000. 
num_episodes = 10000 
pre_train_steps = 10000 
max_epLength = 50 
load_model = False 

path = "./dqn" 

h_size = 512 

tau = 0.001 


我 们 使 用 前 面 写 好 的 Qnetwork 类 初始 化 mainQN 和 辅助 的 targetQN， 
并 初始 化 所 有 模型 参数 。 同 时 ， 使 用 trainables 获 取 所 有 可 训练 的 参数 ， 
并 使 用 updateTargetGraph 创 建 更 新 target DQN 模 型 参数 的 操作 。 


mainQN = Qnetwork(h_size) 
targetQN = Qnetwork(h_size) 


init = tf.global_ variables initializer() 


trainables = tf.trainable_ variables() 


targetOps = updateTargetGraph(trainables, tau) 


我 们 使 用 前 面 定义 的 experience_buffer 创 建 experience replay AY class , 
设置 当前 随机 Action 的 概率 e， 并 计算 e 在 每 一 步 应 该 衰减 的 值 stepDrop。 
接着 初始 化 储存 每 一 个 episode 的 reward 的 列表 rList ， 总 步 数 为 
total_steps。 然后 创建 模型 训练 的 保存 器 (Saver) ， 并 检查 保存 目录 是 否 
存在 。 


myBuffer = experience_buffer() 


e = startE 


stepDrop = (startE - endE)/anneling steps 


rList = [] 
total steps = 6 


saver = tf.train.Saver() 
if not os.path.exists(path): 
os.makedirs(path) 


接 下 来 创建 默认 的 Session ， 如 果 load_model 标 志 为 True， 那 么 检查 模 
型 文件 路 径 的 checkpoint， 读 取 并 载 入 之 前 已 保存 的 模型 。 接 着 ， 我 们 执 
行 参数 初始 化 的 操作 ， 并 执行 更 新 targetQN 模 型 参数 的 操作 。 然 后 创建 进 
行 GridWorld 试 验 的 循环 ， 并 创建 每 个 episode 内 部 的 experience_buffer， 这 
些 内 部 的 buffer 不 会 参与 当前 迭代 的 训练 ， 训 练 只 会 使 用 之 前 episode 的 样 
本 。 同 时 ， 初 始 化 环境 得 到 第 一 个 环境 信息 s， 并 使 用 processState0 函 数 
将 其 局 平 化 。 我 们 初始 化 默认 的 done 标 记 d、episode 内 总 reward 值 YAl1， 以 
及 episode 内 的 步 数 j。 


with tf.Session() as sess: 
if load model == True: 
print('Loading Model...') 
ckpt = tf.train.get_checkpoint_state(path) 
saver.restore(sess,ckpt.model_checkpoint_path) 
sess.run(init) 
updateTarget(targetOps, sess) 
for i in range(num_episodes+1): 
episodeBuffer = experience_buffer() 
S = env.reset() 
s = processState(s) 
d = False 
rAll = 6 
j=0 


接着 创建 一 个 内 层 循 环 ， 每 一 次 迭代 执行 一 次 Action。 当 总 步 数 小 于 
pre_train_steps 时 ， 强 制 使 用 随机 Action， 相 当 于 只 从 随机 Action 学 习 ， 但 
不 去 强化 其 过 程 。 达 到 pre_train_steps 后 ， 我 们 会 保留 一 个 较 小 的 概率 去 
随机 选择 Action。 若 不 随机 选择 Action， 则 传 入 当前 状态 s 给 主 DQN ， 预 
测 得 到 应 该 执行 的 Action。 然 后 使 用 env.step0 执 行 一 步 Action， 并 得 到 接 
下 来 的 状态 sS1、reward 和 done 标 记 。 我 们 使 用 processState 对 s1 进 行 局 平 化 
处 理 ， 然 后 将 s、a、r、s1、d 等 结果 传 入 episodeBuffer 中 存储 。 


while j < max_epLength: 

j+=1 

if np.random.rand(1) < e or total steps < pre train steps: 
a = np.random.randint(@,4) 

else: 
a = sess.run(mainQN.predict, 

feed_dict={mainQN.scalarInput:[s]})[0] 

si,r,d = env.step(a) 

s1 = processState(s1) 

total_steps += 1 

episodeBuffer.add(np.reshape(np.array([s,a,r,s1,d]),[1,5])) 


当 总 步 数 超 过 pre_train_steps 时 ， 我 们 持续 降低 随机 选择 Action 的 概率 
e， 直 到 达到 其 最 低 值 enodE。 并 且 每 当 总 步 数 达到 update_freq 的 整数 倍 
时 ， 我 们 进行 一 次 训练 ， 即 模型 参数 的 更 新 。 首 先是 从 myBuffer 中 sample 
出 一 个 batch_size 的 样本 ， 然 后 将 训练 样本 中 第 3 列 信 息 ， 即 下 一 个 状态 
s1， 传 入 mainQN 并 执行 main.predict， 得 到 主 模型 选择 的 Action。 再 将 s1 
传 入 辅助 的 targetQN ， 并 得 到 s1 状 态 下 所 有 Action 的 Q 值 。 接 下 来 ， 使 用 
mainQN 的 输出 Action ， 选 择 targetQN 输 出 的 Q， 得 到 doubleQ。 这 里 使 用 
两 个 DQN 网 络 把 选择 Action 和 输出 Q 值 两 个 操作 分 隔 开 来 的 做 法 ， 正 是 
Double DQN 的 方法 。 然 后 使 用 训练 样本 的 第 2 列 信息 ， 即 当前 的 reward， 
加 上 doubleQ 乘 以 衰减 系数 y， 得 到 我 们 的 学 习 目 标 targetQ。 接 着 ， 传 入 
当前 的 状态 s， 学 习 目 标 targetQ 和 这 一 步 实 际 采 取 的 Action ， 执 行 
updateModel 操 作 更 新 一 次 主 模型 mainQN 的 参数 〈 即 执行 一 次 训练 操 
作 ) 。 同 时 也 调用 updateTarget 遂 数 ， 执 行 一 次 targetQN 模 型 参数 的 更 新 
(缓慢 地 向 mainQN 学 习 ) ， 这 样 就 完整 地 完成 了 一 次 训练 过 程 。 同 时 ， 


在 每 个 step 结 束 时 ， 累 计 当 前 这 步 获 取 的 reward， 并 更 新 当前 状态 为 下 一 
步 试验 做 准备 。 如 果 done 标 记 为 True， 我 们 直接 中 断 这 个 episode 的 试验 。 


if total_steps > pre_train_steps: 


if e > endE: 


e -= stepDrop 
if total_steps % (update_freq) == 6: 
trainBatch = myBuffer.sample(batch_size) 
A = sess.run(mainQN.predict, feed dict={ 
mainQN.scalarInput:np.vstack(trainBatch[:,3])}) 
Q = sess.run(targetQN.Qout, feed _dict={ 
targetQN.scalarInput:np.vstack(trainBatch[:,3])}) 
doubleQ = Q[range(batch_size),A] 
targetQ = trainBatch[:,2] + y*doubleQ 
_ = sess.run(mainQN.updateModel, feed dict={ 
mainQN.scalarInput:np.vstack(trainBatch[:,0@]), 
mainQN.targetQ:targetQ, 


mainQN.actions:trainBatch[:,1]}) 


updateTarget(targetOps, sess) 
rAll += r 


s = sl 


if d == true: 


break 


我 们 将 episode 内 部 的 episodeBuffer 添 加 到 myBuffer 中 ， 用 作 以 后 训练 
抽样 的 数据 集 ， 并 将 当前 episode 的 reward 添 加 到 rList 中 。 然 后 ， 每 25 个 
episode 就 展示 一 次 它们 平均 的 reward 值 ， 同 时 每 1000 个 episode 或 全 部 训练 
完成 后 ， 保 存 当 前 模型 。 


myBuffer.add(episodeBuffer.buffer) 

FList.append(rA11) 

if i>@ and i % 25 == @: 
print('episode',i,', average reward of last 25 episode’, 

np.mean(rList[-25:])) 

if i>@ and i % 1000 == @: 
saver.save(sess, path+' /model-'+str(i)+'.cptk') 
print("Saved Model") 


saver.save(sess, path+' /model-'+str(i)+'.cptk') 


在 初始 的 200 个 episode 内 ， 即 完全 随机 Action 的 前 10000 步 内 ， 平 均 可 
以 获得 reward 在 2 附近 ， 这 是 基础 的 baseline。 


episode 25 , average reward of last 25 episode 2.52 
episode 50 , average reward of last 25 episode 2.32 
episode 75 , average reward of last 25 episode 1.68 
episode 100 , average reward of last 25 episode 1.92 
episode 125 , average reward of last 25 episode 2.16 
episode 15@ , average reward of last 25 episode 2.28 
episode 175 , average reward of last 25 episode 1.6 


episode 200 , average reward of last 25 episode 2.36 


这 是 训练 到 最 后 一 些 episode 的 输出 ， 平 均 reward 已 经 涨 到 了 22 左 右 ， 
相 比 之 前 的 baseline 是 非常 大 的 提升 。 
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计算 每 100 个 episodes 的 平均 reward， 


趋势 。 


rMat = 


rMean = 


plt.plot(rMean) 


如 图 8-13 所 示 ， 我 们 可 以 看 到 从 第 1000 个 episode 开 始 ，reward 快 速 提 
升 ， 到 第 4000 个 episode 时 基本 达到 了 高 峰 ， 后 面 进入 平台 期 ， 没 有 太 大 


提升 。 
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并 使 用 plt.plot 展 示 reward 变 化 的 
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np.average(rMat, 1) 
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图 8-13 ”训练 过 程 中 reward 的 变化 趋势 
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本 节 中 讲述 了 DQN 的 基本 原理 ， 和 使 用 DQN 的 几 个 非常 重要 的 
Trick。 目 前 DQN 的 研究 仍 在 快速 发 展 中 ， 已 经 有 越 来 越 多 新 的 技术 被 应 
用 到 DQN 中 。DQN 首 次 被 提出 了 ， 在 Atari 2600 游 戏 中 展示 出 了 惊人 的 表 
现 ， 并 直接 引发 了 深度 强化 学 习 的 热潮 。 相 信 在 未 来 ，DQN 或 Value 
Network 会 继续 在 更 多 地 方 发 挥 出 强大 的 作用 。 


9 TensorBoard、 多 GPU 并 行 及 分 布 式 
并 行 


9.1 TensorBoard 


TensorBoard 是 TensorFlow 官 方 推出 的 可 视 化 工具 ， 如 图 9-1 所 示 ， 它 
可 以 将 模型 训练 过 程 中 的 各 种 汇总 数据 展示 出 来 ， 包 括 标 量 
(Scalars) 、 图 片 (Images) 、 音 频 (Audio) 、 计 算 图 (Graphs) 、 数 
据 分 布 (Distributions) 、 BA (Histograms) #1 Bk AT] = 
(Embeddings) 。 我 们 在 使 用 TensorFlow 训 练 大 型 深度 学 习 神 经 网 络 时 ， 
中 间 的 计算 过 程 可 能 非常 复杂 ， 因 此 为 了 理解 、 调 试 和 优化 我 们 设计 的 
网 络 ， 可 以 使 用 TensorBoard 观 察 训练 过 程 中 的 各 种 可 视 化 数据 。 如 果 要 
使 用 TensorBoard 展 示 数 据 ， 我 们 需要 在 执行 TensorFlow 计 算 图 的 过 程 
中 ， 将 各 种 类 型 的 数据 汇总 并 记录 到 日 志文 件 中 。 然 后 使 用 TensorBoard 
读 取 这 些 日 志文 件 ， 解 析 数 据 并 生成 数据 可 视 化 的 Web 页 面 ， 让 我 们 可 以 
在 浏览 器 中 观察 各 种 汇总 数据 。 下 面 我 们 将 通过 一 个 简单 的 MNIST 手 写 
数字 识别 的 例子 ， 讲 解 各 种 类 型 数据 的 汇总 和 展示 的 方法 。 
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图 9-1 TensorBoard 一 一 基于 Web 的 TensorFlow 数 据 可 视 化 工具 
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我 们 首先 载 入 TensorFlow， 并 设置 训练 的 最 大 步 数 为 1000， 学 习 速率 
为 0.001，dropout 的 保留 比率 为 0.9。 同 时 ， 设 置 MNIST 数 据 的 下 载 地 址 
data _dir 和 汇总 数据 的 日 志 存 放 路 径 {tlog dir. 这 里 的 日 志 路 径 {tlog_ dir 非 常 
重要 ， 会 存放 所 有 汇总 数据 供 TensorBoard 展 示 。 本 节 代 码 主要 来 自 


TensorFlow 的 开源 实现 和。 


import tensorflow as tf 

from tensorflow.examples.tutorials.mnist import input data 
max_steps=1000 

learning rate=0.001 

dropout=0.9 

data_dir='/tmp/tensorflow/mnist/input_data' 


log _dir='/tmp/tensorflow/mnist/logs/mnist_with_summaries ' 


我 们 使 用 input dataread_data_sets F #4 MNIST 数据 ， 并 创建 
TensorFlow 的 默认 Session。 


mnist = input data.read data sets(data dir,one hot=True) 


sess = tf.InteractiveSession() 


为 了 在 TensorBoard 中 展示 节点 名 称 ， 我 们 设计 网 络 时 会 经 常 使 用 
with tf.name_scope 限 定 命名 空间 ， 在 这 个 with 下 的 所 有 节点 都 会 被 自动 命 
名 为 input/xxx 这 样 的 格式 。 下 面 定义 输入 x 和 y 的 placeholder， 并 将 输入 的 
一 维 数 据 变形 为 28x28 的 图 片 储 存 到 另 一 个 tensor， 这 样 就 可 以 使 用 
tf.summary.image 将 图 片 数 据 汇 总 给 TensorBoard 展 示 了 。 


with tf.name_scope('input'): 
x = tf.placeholder(tf.float32, [None, 784], name='x-input') 
y_ = tf.placeholder(tf.float32, [None, 10], name='y-input' ) 


with tf.name_scope('input_reshape' ): 
image_shaped_input = tf.reshape(x, [-1, 28, 28, 1]) 


tf.summary.image('input', image shaped_input, 10) 


同时 ， 定 义 神经 网 络 模型 参数 的 初始 化 方法 ， 权 重 依然 使 用 我 们 常 
用 的 truncated_normal 进 行 初始 化 ， 偏 置 则 赋值 为 0.1。 


def weight_variable(shape): 
initial = tf.truncated_normal(shape, stddev=@.1) 


return tf.Variable(initial) 


def bias variable(shape): 
initial = tf.constant(@.1, shape=shape) 


return tf.Variable(initial) 


再 定义 对 Variable 变 量 的 数据 汇总 图 数 ， 我 们 计算 出 Variable 的 mean、 
stddev、max 和 min， 对 这 些 标量 数据 使 用 tf.summary.scalar 进 行 记录 和 汇 
总 。 同 时 ， 使 用 tf.summary.histogram 直 接 记 录 变 量 var 的 直方 图 数据 。 


def variable summaries(var): 
with tf.name_scope('summaries'): 
mean = tf.reduce_mean(var) 
tf.summary.scalar('mean', mean) 
with tf.name_scope('stddev'): 
stddev = tf.sqrt(tf.reduce_mean(tf.square(var - mean) )) 
tf.summary.scalar('stddev', stddev) 
tf.summary.scalar('max', tf.reduce_max(var)) 
tf.summary.scalar('min', tf.reduce_min(var) ) 


tf.summary.histogram('histogram', var) 


然后 我 们 设计 一 个 MLP 多 层 神 经 网 络 来 训练 数据 ， 在 每 一 层 中 都 会 
对 模型 参数 进行 数据 汇总 。 因 此 ， 我 们 定义 创建 一 层 神经 网 络 并 进行 数 
据 汇 总 的 函数 nn_layer。 这 个 函数 的 输入 参数 有 输入 数据 input_tensor、 输 
入 的 维度 input_dim、 输 出 的 维度 output_dim 和 层 名 称 layer_name， 激 活 芳 
数 act 则 默认 使 用 ReLU。 在 函数 内 ， 先 是 初始 化 这 层 神 经 网 络 的 权重 和 偏 
重 ， 并 使 用 前 面 定义 的 variable_summaries 对 variable 进 行 数 据 汇 总 。 然 后 
对 输入 做 和 矩阵 乘法 并 加 偏 置 ， 再 将 未 进行 激活 的 结果 使 用 
tfsummary.histogram 统 计 和 直方 图 。 同 时 ， 在 使 用 激活 函数 后 ， 再 使 用 


tf.summary.histogram 统 计 一 次 。 


def nn_layer(input_tensor, input_dim, output_dim, layer_name, 
act=tf.nn.relu): 
with tf.name_scope(layer_name): 
with tf.name_scope('weights'): 
weights = weight_variable([input_dim, output_dim]) 
variable _summaries(weights ) 
with tf.name_scope('biases'): 
biases = bias_variable([output_dim] ) 
variable _summaries(biases) 
with tf.name_scope('Wx_plus_b'): 
preactivate = tf.matmul(input_tensor, weights) + biases 
tf.summary.histogram('pre_activations', preactivate) 
activations = act(preactivate, name='activation' ) 
tf.summary.histogram('activations', activations) 


return activations 


我 们 使 用 刚刚 定义 好 的 nn_layer 创 建 一 层 神经 网 络 ， 输 入 维度 是 图 片 
的 尺寸 (784=28x28) ， 输 出 的 维度 是 隐藏 节点 数 500。 再 创建 一 个 
Dropout 层 ， 并 使 用 tft.summary.scalar 记 录 keep_prob。 然 后 再 使 用 nn_layer 
定义 神经 网 络 的 输出 层 ， 其 输入 维度 为 上 一 层 的 隐 含 节点 数 500， 输 出 维 
度 为 类 别 数 10， 同 时 激活 函数 为 全 等 映射 identity， 即 暂 不 使 用 Softmax， 
在 后 面 会 处 理 。 


hidden1 = nn_layer(x, 784, 500, ‘layer1') 


with tf.name_scope('dropout'): 


keep prob = tf.placeholder(tf.float32) 


tf.summary.scalar('dropout_keep_ probability’, keep prob) 
dropped = tf.nn.dropout(hidden1, keep_prob) 


y = nn_layer(dropped, 500, 10, ‘layer2', act=tf.identity) 


这 里 使 用 tf.nn.softmax_cross_entropy_with_logits() 对 前 面 输出 层 的 结 
5H 17 Softmax WA IEF it Be Zt Across_entropy. Flite Finn 
失 ， 并 使 用 tt.summary.scalar 进 行 统计 汇总 。 


with tf.name_scope('cross_entropy'): 
diff = tf.nn.softmax_cross_ entropy _with_logits(logits=y, labels=y_) 
with tf.name_scope('total'): 
cross entropy = tf.reduce_mean(diff) 


tf.summary.scalar('cross_entropy', cross_entropy) 


下 面 使 用 Adma 优 化 器 对 损失 进行 优化 ， 同 时 充 计 预 测 正确 的 样本 数 
并 计算 正确 率 accuray， 再 使 用 tf.summary.scalar 对 accuracy 进 行 统 计 汇 总 。 


with tf.name_scope('train'): 
train_step = tf.train.AdamOptimizer(learning rate) .minimize(cross_entropy) 
with tf.name_scope('accuracy'): 
with tf.name_scope('correct_prediction'): 
correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1)) 
with tf.name_scope('accuracy'): 
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32) ) 


tf.summary.scalar('accuracy', accuracy) 


因为 我 们 之 前 定义 了 非常 多 的 tt.summary 的 汇总 操作 ， 逐 一 执行 这 些 
操作 太 麻 烦 ， 所 以 这 里 使 用 tf.summary.merger_all() 直 接 获 取 所 有 汇总 操 
作 ， 以 便 后 面 执行 。 然 后 ， 定 义 两 个 tf.summary.FileWriter (文件 记录 
器 ) 在 不 同 的 子 目录 ,分别 用 来 存放 训练 和 测试 的 日 志 数 据 。 同 时 ， 将 
Session 的 计算 图 sess.graph 加 入 训练 过 程 的 记录 器 ， 这 样 在 TensorBoard 的 
GRAPHS 窗口 中 就 能 展示 整个 计算 图 的 可 视 化 效果 。 最 后 使 用 
tf.global_variables_initializerO.run0 初 始 化 全 部 变量 。 


merged = tf.summary.merge_all1() 


train_writer = tf.summary.FileWriter(log dir + '/train', sess.graph) 


test_writer = tf.summary.FileWriter(log dir + '/test') 


tf.global_variables_initializer().run() 


接 下 来 定义 feed_dict 的 损失 水 数 。 该 水 数 先 判断 训练 标记 ， 如 果 训 练 
标记 为 True， 则 从 mnist.train 中 获取 一 个 batch 的 样本 ， 并 设置 dropout 值 ，; 
如 果 训 | 练 标记 为 False， 则 获取 测试 数据 ， 并 设置 keep_prob 为 1， 即 等 于 疫 
有 dropout 效 果 。 


def feed dict(train): 
if train: 
xs, ys = mnist.train.next_batch(100) 
k = dropout 
else: 
xs, ys = mnist.test.images, mnist.test.labels 
k = 1.0 


return {x: xs, y_: ys, keep prob: k} 


最 后 一 步 ， 实 际 执行 具体 的 训练 、 测 试 及 日 志 记 录 的 操作 。 首 先 使 
用 tf.train.Saver0 创 建 模 型 的 保存 器 。 然 后 进入 训练 的 循环 中 ， 每 隔 10 步 
执行 一 次 merged (数据 汇总 ) 、accuracy ( 求 测试 集 上 的 预测 准确 率 ) 操 
作 ， 并 使 用 test_writeradd_sumamry 将 汇总 结果 summary 和 循环 步 数 i 写 入 
日 志文 件 ; 同时 每 隔 100 步 ， 使 用 tf.RunOptions 定 义 TensorFlow 运 行 选 
页 ， 其 中 设置 trace_level 为 FULL_TRACE， 并 使 用 tf.RunMetadata() 定 义 
TensorFlow 运 行 的 元 信息 ， 这 样 可 以 记录 训练 时 运算 时 间 和 内 存 占用 等 方 
面 的 信息 。 表 执行 merged 数 据 汇总 操作 和 train_step 训 练 操作 ， 将 汇总 结 
果 summary 和 训练 元 信息 run_metadata 添 加 到 train_writer。 平 时 ， 则 只 执行 
merged 操 作 和 train_step 操 作 ， 并 添加 summary 到 train_writer。 所 有 训练 全 
部 结束 后 ， 关 闭 train_writer 和 test_writer。 


saver = tf.train.Saver() 
for i in range(max_steps): 
if i % 10 == 0: 
summary, acc = sess.run([merged, accuracy], feed _dict=feed_dict(False) ) 
test_writer.add_summary(summary, i) 
print('Accuracy at step %s: %s' % (i, acc)) 
else: 
if i % 100 == 99: 


run_options = tf.RunOptions(trace_level=tf.RunOptions.FULL_TRACE) 


run_metadata = tf.RunMetadata() 

summary, _ = sess.run([merged, train_step], feed _dict=feed_dict(True), 
options=run_options, run_metadata=run_metadata) 

train_writer.add_run_metadata(run_metadata, ‘step%@3d' % i) 

train_writer.add_summary(summary, i) 

saver.save(sess, log dir+"/model.ckpt", i) 

print('Adding run metadata for', i) 

else: 
summary, _ = sess.run([merged, train_step], feed_dict=feed_dict(True) ) 
train_writer.add_summary(summary, i) 
train_writer.close() 


test_writer.close() 


之 后 切换 到 Linux 命 令 行 下 ， 执 行 TensorBoard 程 序 ， 并 通过 --logdir 指 
定 TensorFlow 日 志 路 径 ， 然 后 TensorBoard 就 可 以 自动 生成 所 有 汇总 数据 
可 视 化 的 结果 了 。 


tensorboard --logdir=/tmp/tensorflow/mnist/logs/mnist_with_summaries 


执行 上 面 的 命令 后 ， 出 现 一 条 提示 信息 ， 复 制 其 中 的 网 址 到 浏览 
器 ， 就 可 以 看 到 数据 可 视 化 的 图 表 了 。 


Starting TensorBoard b'39' on port 6006 
(You can navigate to http://192.168.233.101:6006) 


首先 打开 标量 SCALARS 的 窗口 ， 并 单 击 打开 accuracy 的 图 表 ， 如 图 
9-2 所 示 。 其 中 可 以 看 到 两 条 曲线 ， 分 别 是 train 和 test 中 accuray 随 训练 步 数 
变化 的 趋势 。 我 们 可 以 调整 Smoothing 参 数 ， 控 制 对 曲线 的 平滑 处 理 ， 数 
值 越 小 越 接 近 实 际 值 ， 但 波动 较 大 ;数值 越 大 则 曲线 越 平 组 。 单 击 图 表 
左下 方 的 按钮 ， 可 以 放大 这 个 图 片 ， 单 击 它 右边 的 按钮 则 可 以 调整 坐标 
轴 的 范围 ， 以 便 更 清楚 地 展示 。 


切换 到 图 像 IMAGES 窗 口 ， 如 图 9-3 所 示 ， 可 以 看 到 MNIST 数 据 集 中 
的 图 片 。 不 只 是 原始 数据 ， 所 有 在 tt.sumamry.image0 中 汇总 的 图 片 数 据 都 
可 以 在 这 里 看 到 ， 包 括 进 行 了 各 种 光学 畸变 后 的 图 片 ， 或 是 神经 网 络 的 
中 间 节 点 的 输出 。 
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图 9-3 TensorBoard IMAGES 图 片 展示 效果 


进入 计算 图 GRAPHS 窗 口 ， 可 以 看 到 整个 TensorFlow 计 算 图 的 结构 ， 
如 图 9-4 所 示 。 这 里 展示 了 网 络 forward 的 inference 的 流程 ， 以 及 backward 
训练 更 新 参数 的 流程 。 我 们 在 代码 中 创建 的 只 有 forward 正 向 过 程 : input 
> layerl > dropout > layer2 一 cross_entropy、 accuracy 的 ， 而 训练 中 
backward 的 求解 梯度 、 更 新 参数 等 操作 是 TensorFlow 帮 我 们 自动 创建 的 。 
中 实 线 代 表 数 据 上 的 依赖 关系 ， 虚 线 代 表 控 制 条 件 上 的 依赖 关系 。 单 


击 某 个 节点 的 窗口 ， 可 以 查看 它 的 属性 、 输 入 及 和 输出， 并且 可 以 看 到 输 
出 tensor 的 尺寸 。 我 们 也 可 以 单 击 节点 右上 角 的 “+” 号 按 包 ， 展 开 这 个 node 
的 内 部 细节 。 例 如 ， 单 击 layer2 可 以 看 到 内 部 的 weights、biases、 和 矩阵 乘 
法 操作 、 向 量 加 法 操作 ， 以 及 激活 遂 数 计算 的 操作 ， 这 些 操作 都 归属 于 
tf.name_scope('layer2') 这 个 命名 空间 (name scope) 。 所 有 在 一 个 命名 空 
间 中 的 节点 都 会 被 折 苇 在 一 起 ， 在 设计 网 络 时 ， 我 们 要 尽 可 能 精细 地 使 
用 命名 空间 对 节点 名 称 进行 规范 ， 这 样 会 展示 出 更 清晰 的 结构 。 同 时 ， 
在 TensorBoard 中 ， 我 们 可 以 右键 单 击 一 个 节点 并 选择 删除 它 ， 这 不 会 真 
的 在 计算 图 中 中 删除 它 ， 但 是 可 以 简化 我 们 的 视图 ， 以 便 更 好 地 观察 网 
络 结 构 。 我 们 也 可 以 切换 配色 风格 ， 一 种 是 基于 结构 的 ， 相 同 的 结构 的 
节点 有 一 样 的 颜色 ;， 另 一 种 是 基于 运算 硬件 的 ， 在 同一 个 运算 硬件 上 的 
节点 有 一 样 的 颜色 。 同 时 ， 我 们 可 以 单 击 左边 面板 的 Session runs ， 选 择 
我 们 之 前 记录 过 run_metadata 的 训练 元 信息 ， 这 样 可 以 查看 某 轮 迭代 计算 
的 时 间 消 耗 、 内 人 存 占用 等 情况 。 
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图 9-4 TensorBoard GRAPHS 计 算 图 展示 效果 


切换 到 DISTRIBUTIONS 窗 口 ， 如 图 9-5 所 示 ， 可 以 查看 之 前 记录 的 
各 个 神经 网 络 层 输出 的 分 布 ， 包 括 在 激活 函数 前 的 结果 及 在 激活 函数 后 


的 结果 。 这 样 能 观察 到 神经 网 络 节 点 的 输出 是 否 有 效 ， 会 不 会 存在 过 多 
的 被 屏 流 的 节点 (dead neurons) o 
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图 9-5 TensorBoard DISTRIBUTIONS 变 量 分 布展 示 效 果 


也 可 以 将 DISTRIBUTIONS 的 图 示 结 构 转 为 直方 图 的 形式 。 单 击 
HISTOGRAMS 窗 口 ， 如 图 9-6 所 示 ， 可 以 将 每 一 步 训 练 后 的 神经 网 络 层 的 
输出 的 分 布 以 直方 图 的 形式 展示 出 来 。 
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图 9-6 TensorBoard HISTOGRAMS 直 方 图 的 展示 效果 


单 击 EMBEDDINGS 窗 口 ， 如 图 9-7 所 示 ， 可 以 看 到 降 维 后 的 能 入 向 
量 的 可 视 化 效果 ， 这 是 TensorBoard 中 的 Embedding Projector 功 能 。 虽 然 在 
MNIST 数 据 的 训练 中 是 没有 髋 入 向 量 的 ， 但 是 只 要 我 们 使 用 tt.save.Saver 
保存 了 整个 模型 ， 就 可 以 让 TensorBoard 自 动 对 模型 中 所 有 二 维 的 Variable 
进行 可 视 化 (TensorFlow 中 只 有 Variable 可 以 被 保存 ， 而 Tensor 不 可 以 ， 
此 我 们 需要 把 想 可 视 化 的 Tensor 转 为 Variable) 。 我 们 可 以 选择 TSNE 或 者 
PCA 等 算法 对 数据 的 列 (特征 ) 进行 降 维 ， 并 在 3D 或 者 2D 的 坐标 中 进行 
可 视 化 展示 。 如 果 我 们 的 模型 是 word2Vec 计 算 或 Language Model, ABA 
TensorBoard 的 EMEBEDDINGS 可 视 化 功能 会 变 得 非常 有 用 。 
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9.2 ”多 GPU 并 行 


TensorFlow 中 的 并 行 主要 分 为 模型 并 行 和 数据 并 行 。 模 型 并 行 需要 根 
据 不 同 模型 设计 不 同 的 并 行 方式 ， 其 主要 原理 是 将 模型 中 不 同 计算 节点 
放 在 不 同 硬件 资源 上 运算 。 比 较 通 用 的 且 能 简便 地 实现 大 规模 并 行 的 方 
式 是 数据 并 行 ， 其 思路 我 们 在 第 1 章 讲解 过 ， 是 同时 使 用 多 个 硬件 资源 来 
计算 不 同 batch 的 数据 的 梯度 ， 然 后 汇总 梯度 进行 全 局 的 参数 更 新 。 

数据 并 行 几乎 适用 于 所 有 深度 学 习 模 型 ， 我 们 总 是 可 以 利用 多 块 
GPU 同 时 训练 多 个 batch 数 据 ， 运 行 在 每 块 GPU 上 的 模型 都 基于 同一 个 神 


经 网 络 ， 网 络 结构 完全 一 样 ， 并 且 共 享 模型 参数 。 本 节 我 们 主要 讲解 同 
步 的 数据 并 行 ， 即 等 待 所 有 GPU 都 计算 完 一 个 batch 数 据 的 梯度 后 ， 再 统 
一 将 多 个 梯度 合 在 一 起 ， 并 更 新 共 吾 的 模型 参数 ， 这 种 方法 类 似 于 使 用 
了 一 个 较 大 的 batch。 使 用 数据 并 行 时 ，GPU 的 型 号 、 速 度 最 好 一 致 ， 这 
样 效率 最 高 。 而 异步 的 数据 并 行 ， 则 不 等 待 所 有 GPU 都 完成 一 次 训练 ， 
而 是 哪个 GPU 完成 了 训练 ， 就 立即 将 梯度 更 新 到 共享 的 模型 参数 中 。 通 
单 来 说 ， 同 步 的 效 据 并 行 比 异步 的 模式 收敛 速度 更 快 ， 模 型 的 精度 更 


A 
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下 面 就 讲解 使 用 多 GPU 的 同步 数据 并 行 来 训练 卷 积 神经 网 络 的 例 
子 ， 使 用 的 数据 集 为 CIFAR-10。 首 先 载 入 各 种 依赖 的 库 ， 其 中 包括 
TensorFlow Models 中 cifar10 的 类 (我 们 在 第 5 章 下 载 了 这 个 库 ， 现 在 只 
确保 Python 执 行路 径 在 models/tutorials/image/cifar10 下 即 可 ) ， 它 可 以 下 
载 CIFAR-10 数 据 并 进行 一 些 数据 预 处 理 。 本 节 我 们 不 再 重头 设计 一 个 
CNN， 而 是 直接 使 用 一 个 现成 的 CNN， 并 侧重 于 讲解 如 何 使 用 数据 并 行 
训练 这 个 CNN。 本 节 代 码 主 要 来 自 TensorFlow 的 开源 实现 5 。 


import os.path 

import re 

import time 

import numpy as np 
import tensorflow as tf 


import cifar16 


我 们 设置 batch 大 小 为 128， 最 大 步 数 为 100 万 步 中间 可 以 随时 停 
止 ， 模 型 定期 保存 ) ， 使 用 的 GPU 数量 为 4 (取决 于 当前 机 器 上 有 多 少 可 
用 显卡 ) 。 


batch_size=128 
max_steps=1000000 


num_gpus=4 


RAT MU Bin KN KR RM tower loss 。 我 们 先 使 用 
cifar10.distorted_inputs 产生 数据 增强 后 的 images 和 1labels， 并 调用 
cifar10.inference 生 成 卷 积 网 络 (注意 ， 我 们 需要 为 每 个 GPU 生 成 单独 的 网 
络 ， 这 些 网 络 的 结构 完全 一 致 ， 并 且 共 享 模型 参数 ) 。 通 过 


cifar10.inference 生 成 的 卷 积 网 络 和 5.3 节 中 的 卷 积 网 络 一 致 ， 读 者 若 想 了 
解 网 络 结构 的 具体 细节 ， 可 参考 5.3 节 中 的 内 容 。 然 后 ， 根 据 卷 积 网 络 和 
labels， 调 用 cifar10.loss 计 算 损 失 函 数 (这 里 不 直接 返回 loss， 而 是 储存 到 
collection 中 ) ， 并 用 tt.get_collection(losses,scope) 获 取 当 前 这 个 GPU 上 的 
loss (通过 scope 限 定 了 范围 ， 再 使 用 tf.add_n 将 所 有 损失 二 加 到 一 起 得 
到 jtotal_loss。 最 后 返回 total_loss 作 为 水 数 结果 。 


def tower loss(scope): 


images, labels = cifar10.distorted_inputs() 


logits = cifar10.inference(images) 

_ = cifari@.loss(logits, labels) 

losses = tf.get_collection('losses', scope) 
total_loss = tf.add_n(losses, name='total_loss') 


return total_loss 


下 面 定义 函数 average_gradients， 它 负责 将 不 同 GPU 计 算出 的 梯度 进 
行 合 成 。 函 数 的 输入 人 参数 tower_grads 是 梯度 的 双 层 列表 ， 外 层 列 表 是 不 
同 GPU 计 算得 到 的 梯度 ， 内 层 列表 是 某 个 GPU 内 计算 的 不 同 Variable 对 应 
的 梯度 ， 最 内 层 元 素 为 (grads,variable) ， 即 tower_grads 的 基本 元 素 为 二 元 
组 (ME, BSB). HS AH NX A [l[(grad0_gpu0,var0_gpu0), 
(grad1_gpu0,varl1_gpu0)....],[ (gradO_gpul,var0_gpu1), 
(grad1_gpul,var1_gpu1),...]..]. 我 们 先 创 建 平均 梯度 的 列表 
average_grads ， 它 负责 将 梯度 在 不 同 GPU 间 进行 平均 。 然 后 使 用 
zip(*tower_grads) 将 这 个 双 层 列表 转 置 ， 变 成 [[(grad0_gpu0,var0_gpu0)， 
(grad0_gpu1,var0_gpu1),...],[ (grad1_gpu0,var1_gpu0), 
(grad1_gpul,varl_gpu1),…],…] 的 形式 ， 然 后 使 用 循环 遍历 其 元 素 。 每 个 循 
环 中 获取 的 元 素 grad_and_vars， 是 同一 个 Variable 的 梯度 在 不 同 GPU 上 的 
计算 结果 ， 即 [(grad0_gpu0,var0_gpu0),(grad0_gpul,var0_gpul),.]。 对 同一 
个 variable 的 梯度 在 不 同 GPU 计 算出 的 副本 ， 需 要 计算 其 梯度 的 均值 ， 如 
果 这 个 梯度 是 一 个 NN 维 的 向 量 ， 需 要 在 每 个 维度 上 都 进行 平均 。 我 们 先 
使 用 tf.expand_dims 给 这 些 梯度 添加 一 个 郊 余 的 维度 0， 然 后 把 这 些 梯度 放 
到 列表 grad 中 ， 接 着 使 用 tt.concat 将 它们 在 维度 0 上 合并 ， 最 后 使 用 
tfreduce_mean 针 对 维度 0 上 求 平 均 ， 即 将 其 他 维度 全 部 平均 。 最 后 将 平均 
后 的 梯度 跟 Variable 组 合 得 到 原 有 的 二 元 组 BE, SS) 格式 ， 并 添加 


到 列表 average_grads 中 。 当 所 有 梯度 都 求 完 均值 后 ， 我 们 返回 


average_gradso 


def average gradients(tower_grads): 
average grads = [] 
for grad_and_vars in zip(*tower_grads): 
grads = [] 


for g, in grad_and_vars: 


expanded_g = tf.expand_dims(g, @) 
grads.append(expanded_g) 


grad = tf.concat(grads, @) 


grad = tf.reduce_mean(grad, @) 


v = grad_and_vars[@][1] 
grad_and_var = (grad, v) 
average _grads.append(grad_and_var) 


return average grads 


下 面 定 义 训练 的 图 数 。 先 设置 默认 的 计算 设备 为 CPU ， 用 来 进行 一 
些 简 单 的 计算 。 然 后 使 用 global_step 记 录 全 局 训练 的 步 数 ， 并 计算 一 个 
epoch 对 应 的 batch 数 ， 以 及 学 习 速 率 衰减 需要 的 步 数 decay_steps。 我 们 使 
用 tf.train.exponential _decay 创 建 随 训练 步 数 衰减 的 学 习 速率 ， 这 里 第 1 个 
参数 为 初始 学 习 速 率 ， 第 2 个 参数 为 全 局 训练 的 步 数 ， 第 3 个 参数 为 每 次 
衰减 需要 的 步 数 ， 第 4 个 参数 为 衰减 率 ，staircase 设 为 True 代表 是 阶梯 式 的 
衰减 。 然 后 设置 优化 算法 为 GradientDescent， 并 传 入 随 步 数 豪 减 的 学 习 速 
by 24 
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def train(): 
with tf.Graph().as_default(), tf.device('/cpu:@'): 
global step = tf.get_variable('global_ step’, [], 
initializer=tf.constant_initializer(@), 


trainable=False) 


num_batches_per_epoch = cifar1@.NUM_EXAMPLES_PER_EPOCH_FOR_TRAIN / \ 
batch_size 


decay_steps = int(num_batches_per_epoch * cifar1@.NUM_EPOCHS PER_DECAY) 


lr = tf.train.exponential_ decay(cifar1@.INITIAL_LEARNING RATE, 
global _step, 
decay_steps, 
cifari@.LEARNING_RATE_DECAY_FACTOR, 


staircase=True) 


opt = tf.train.GradientDescentOptimizer(lr) 


我 们 定义 储存 各 GPU 计算 结果 的 列表 tower_grads。 然 后 创建 一 个 循 
环 ， 循 环 次 数 为 GPU 数量 ， 在 每 一 个 循环 内 ， 使 用 tt.device 限 定 使 用 第 几 
个 GPU ， 如 gpu0、gpul， 然 后 使 用 ttname_scope 将 命名 空间 定义 为 
tower 0、tower_ 1 的 形式 。 对 每 一 个 GPU ， 使 用 前 面 定 义 好 的 国 数 
tower_loss 获 取 其 损失 ， 然 后 调用 tf.get_variable_scope().reuse_variables() 重 
用 参数 ， 让 所 有 GPU 共用 一 个 模型 及 完全 相同 的 参数 。 再 使 用 
opt.compute_gradients(loss) 计 算 单 个 GPU 的 梯度 ， 并 将 求 得 的 梯度 添加 到 
梯度 列表 tower_grads。 最 后 使 用 前 面 写 好 的 六 数 average_gradients 计 算 平 
均 梯 度 ， 并 使 用 optapply_gradients 更 新 模型 参数 。 这 样 就 完成 了 多 GPU 
的 同步 训练 和 参数 更 新 。 


tower_grads = [] 
for i in range(num_gpus): 
with tf.device('/gpu:%d' % i): 
with tf.name_scope('%s_ %d' % (cifar1@.TOWER_NAME, i)) as scope: 
loss = tower_loss(scope) 
tf.get variable scope().reuse_variables() 
grads = opt.compute_gradients(loss) 


tower_grads.append(grads) 


grads = average gradients(tower_grads) 


apply _gradient_op = opt.apply_gradients(grads, global step=global step) 


我 们 创建 模型 的 保存 器 saver， 将 Session 的 allow_soft_placement 人 参数 
设置 为 True 《有些 操作 只 能 在 CPU 进行 ， 不 使 用 soft_placement 可 能 导 至 
运行 出 错 ) ， 初 始 化 全 部 参数 ， 并 调用 tf.train.start_queue_runners() 准 备 好 
大 量 的 数据 增强 后 的 训练 样本 ， 防 止 后 面 的 训练 被 阻塞 在 生成 样本 上 。 


saver = tf.train.Saver(tf.all variables()) 

init = tf.global variables initializer() 

sess = tf.Session(config=tf.ConfigProto(allow_soft_placement=True) ) 
sess.run(init) 


tf.train.start_queue_runners(sess=sess) 


下 面 进 入 训练 的 循环 ， 最 大 迭代 次 数 为 max_steps。 在 每 一 步 中 执行 
一 次 更 新 梯度 的 操作 apply_gradient_op 〈 即 一 次 训练 操作 ) 和 计算 损失 的 
操作 loss， 同 时 使 用 time.time() 记 录 耗 时 。 每 隔 10 步 ， 展 示 一 次 当前 batch 
的 loss， 以 及 每 秒 钟 可 训练 的 样本 数 和 每 个 batch 训 练 所 需要 花费 的 时 间 。 
每 隔 1000 步 ， 使 用 Saver 保 存 整个 模型 文件 。 


for step in range(max_steps): 


start_time = time.time() 
_, loss_value = sess.run([apply_gradient_op, loss]) 


duration = time.time() - start_time 


if step % 10 == @: 
num_examples_per_step = batch_size * num_gpus 
examples _per_sec = num_examples per_step / duration 


sec_per_batch = duration / num_gpus 


format_str = (‘step %d, loss = %.2f (%.1f examples/sec; %.3f ' 
'sec/batch)') 
print (format_str % (step, loss_value, examples_per_sec, 


sec_per_batch)) 


if step % 1000 == 6 or (step + 1) == max_steps: 


saver.save(sess, '/tmp/cifar10_train/model.ckpt', global_step=step) 


我 们 将 主 国 数 后 全 部 定义 完 后 ， 使 用 
cifar10.maybe_download_and_extract() 下载 完整 的 CIFAR-10 数 据 ， 并 调用 
train0 国 数 开 始 训练 。 


cifar10.maybe_download_and_extract() 


train() 


下 面 展示 的 结果 即 为 训练 过 程 中 显示 的 日 志 ，loss 从 最 开始 的 4 点 
几 ， 到 第 70 万 步 时 ， 大 致 降 到 了 0.07。 我 们 的 训练 速度 很 快 ， 平均 每 个 
batch 的 耗 时 仅 为 0.021s， 平 均 每 秒 可 以 训练 6000 个 样本 ， 差 不 多 正好 是 单 
GPU 的 4 倍 。 因 此 在 单机 多 GPU 的 情况 下 ， 使 用 TensorFlow 实 现 的 数据 并 
行 效率 是 非常 高 的 。 


step 729470, loss = 0.07 (6043.4 examples/sec; 0.021 sec/batch) 
step 729480, loss = 0.07 (6200.1 examples/sec; 0.021 sec/batch) 
step 729490, loss = 0.08 (6055.5 examples/sec; 0.021 sec/batch) 
step 729500, loss = 0.09 (5986.7 examples/sec; 0.021 sec/batch) 
step 729510, loss = 0.07 (6075.3 examples/sec; 0.021 sec/batch) 
step 729520, loss = 0.06 (6630.1 examples/sec; 0.019 sec/batch) 
step 729530, loss = 0.09 (6788.4 examples/sec; 6.619 sec/batch) 
step 729540, loss = 0.08 (6464.4 examples/sec; 0.020 sec/batch) 
step 729550, loss = 0.06 (6548.5 examples/sec; 6.626 sec/batch) 
step 729560, loss = 0.08 (6900.3 examples/sec; @.019 sec/batch) 
step 729570, loss = 0.08 (6381.3 examples/sec; 0.020 sec/batch) 
step 729580, loss = 0.07 (6101.0 examples/sec; 6.621 sec/batch) 


9.3 分布 式 并 行 


TensorFlow 的 分 布 式 并 行 基于 gRPC 通 信和 框架 ， 其 中 包括 一 个 master 负 
责 创建 Session， 还 有 多 个 worker 负 责 执 行 计算 图 中 的 任务 。 我 们 需要 先 
创建 一 个 TensorFlow Cluster 对 象 ， 它 包含 了 一 组 task (每 个 task 一 般 是 一 
台 单 独 的 机 器 ) 用 来 分 布 式 地 执行 TensorFlow 的 计算 图 。 一 个 Cluster 可 以 
切 分 为 多 个 job， 一 个 job 是 指 一 类 特定 的 任务 ， 比 如 parameter server 
(ps)、worker， 每 一 个 job 里 可 以 包含 多 个 task。 我 们 需要 为 每 一 个 task 创 | 
建 一 个 server， 然 后 连接 到 Cluster 上 ， 通 常 每 个 task 会 执行 在 不 同 的 机 器 
上 ， 当 然 也 可 以 一 台 机 器 上 执行 多 个 task (控制 不 同 的 GPU) 。Cluster 对 
象 通过 tf.train.ClusterSpec 来 初始 化 ， 初 始 化 信息 是 一 个 Python 的 dict， 例 
如 tf.train.ClusterSpec({"ps": ["192.168.233.201:2222"],"worker": 
["192.168.233.202:2222","192.168.233.203:2222"]}) ， 了 这 代表 设置 了 一 个 
parameter server 和 两 个 worker， 分 别 在 三 台 不 同 机 器 上 。 对 每 个 task， 我 
们 需要 给 它 定 义 自 己 的 身份 ， 比 如 对 这 个 ps 我 们 将 设置 server = 
tf.train.Server(clusterjob_name="ps",task_index=0)， 将 这 人 台 机 器 的 job 定义 
为 pp， 并 且 是 ps 中 的 第 0 台 机 器 。 上 此外， 通过 在 程序 中 使 用 诸如 with 
tf.device("/job:worker/task:7")， 可 以 限定 Variable 存 放 在 哪个 task 或 哪 台 机 
器 上 。 


TensorFlow 的 分 布 式 有 几 种 模式 ， 比 如 In-graph replication 模 型 并 行 ， 
将 模型 的 计算 图 的 不 同 部 分 放 在 不 同 机 器 上 执行 ; 而 Between-graph 
replication 则 是 数据 并 行 ， 每 台 机 器 使 用 完全 相同 的 计算 图 ， 但 是 计算 不 
同 的 batch 数 据 。 此 外 ， 我 们 还 有 异步 并 行 和 同步 并 行 ， 异 步 并 行 指 每 机 
器 独立 计算 梯度 ， 一 旦 计算 完 就 更 新 到 parameter server 中 ， 不 等 其 他 机 
器 ; 同步 并 行 指 等 所 有 机 器 都 完成 对 梯度 的 计算 后 ， 将 多 个 梯度 合成 并 
统一 更 新 模型 参数 。 一 般 来 说 ， 同 步 并 行 训练 时 ，loss 下 降 的 速度 更 快 ， 
可 达到 的 最 大 精度 更 高 ， 但 是 同步 并 行 有 木 桶 效应 ， 速 度 取决 于 最 慢 的 
那个 机 器 ， 所 以 当 设 备 速 度 一 臻 时， 效率 比较 高 。 

下 面 我 们 就 用 TensorFlow 实 现 包 含 1 个 paramter server 和 2 个 worker 的 分 
布 式 并 行 训 练 程序 ， 并 以 MNIST 手 写 数 据 识 别 任务 作为 示例 。 这 里 需要 
写 一 个 完整 的 Python 文件 ， 并 在 不 同 机 器 上 以 不 同 的 task 执 行 。 首 先 载 入 
TensorFlow 和 所 有 依赖 库 。 本 节 代 码 主要 来 自 TensorFlow 的 开源 实现 % 。 


import math 

import tempfile 

import time 

import tensorflow as tf 


from tensorflow.examples.tutorials.mnist import input data 


这 里 使 用 tf.app.flags 定 义 标 记 ， 用 以 在 命令 行 执 行 TensorFlow 程 序 时 
设置 参数 。 在 命令 行 中 指定 的 参数 会 被 TensorFlow 读 取 ， 并 直接 转 为 
flags。 设 定数 据 储存 目录 data_dir 默 认为 /tmp/mnist-data， 隐 藏 节点 数 默认 
为 100， 训 练 最 大 步 数 train_steps 默 认为 1000000，batch size 默 认为 100， 学 
习 速率 为 默认 0.01。 


flags = tf.app.flags 
flags.DEFINE_string("data_dir", "/tmp/mnist-data", 

"Directory for storing mnist data") 
flags.DEFINE_integer("hidden_units", 100, 

"Number of units in the hidden layer of the NN") 
flags.DEFINE_integer("train_steps", 1000000, 

"Number of (global) training steps to perform") 
flags.DEFINE_integer("batch_size", 100, "Training batch size") 
flags.DEFINE_float("learning rate", @.@1, “Learning rate") 


然后 设 定 是 否 使 用 同步 并 行 的 标记 sync_replicas 默 认为 False， 在 命令 
行 执行 时 可 以 设 为 True 开局 同步 并 行 。 同 时 ， 设 定 需要 累计 多 少 个 梯度 来 
更 新 模型 的 值 默认 为 None， 这 个 参数 代表 进行 同步 并 行 时 ， 一 共 积 攒 多 
少 个 batch 的 梯度 才 进 行 一 次 参数 更 新 ， 设 为 None 则 使 用 worker 的 数量 ， 
即 所 有 worker 都 完成 一 个 batch 的 训练 后 再 更 新 模型 参数 。 


flags.DEFINE boolean("sync replicas", False, 
"Use the sync_replicas (synchronized replicas) mode, " 
"wherein the parameter updates from workers are " 


"aggregated before applied to avoid stale gradients") 


flags.DEFINE_integer("replicas to_aggregate", None, 
“Number of replicas to aggregate before parameter " 
"update is applied (For sync_replicas mode only; " 


"default: num_workers)") 


再 定义 ps 的 地 址 ， 这 里 默认 为 192.168.233.201:2222， 读 者 应 该 根据 
集群 的 实际 情况 配置 ， 下 同 。 将 worker 的 地 址 设置 为 192.168.233.202:2222 
和 192.168.233.203:2222。 同时， 设置 job_name 和 task_index 的 FLAG ， 这 
样 在 命令 行 执行 时 ， 可 以 输入 这 两 个 参数 。 


flags.DEFINE_string("ps_hosts","192.168.233.201:2222", 
"Comma-separated list of hostname:port pairs") 
flags.DEFINE_string("worker_hosts", 
"192.168.233.202:2222,192.168.233.203:2222", 
"Comma-separated list of hostname:port pairs") 
flags.DEFINE_string("job_name", None,"job name: worker or ps") 
flags.DEFINE_integer("task_index", None, 


"Worker task index, should be >= 6. task_index=@ is 


"the master worker task the performs the variable 


"initialization ") 


将 flags.FLAGS 直 接 命名 为 FLAGS， 简 化 使 用 。 同 时 ， 设 置 图 片 尺 十 
IMAGE PIXELS 为 28。 


FLAGS = flags.FLAGS 
IMAGE_PIXELS = 28 
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载 并 读 取 MNIST 数 据 集 ， 并 设置 为 one_hot 编 码 格式 。 同 时 ， 检 测 命令 行 
输入 的 参数 ， 确保 有 job_ name 和 task_index 这 两 个 必 备 的 参数 。 显 示 出 
job_name 和 task_index， 并 将 ps 和 worker 的 所 有 地 址 解析 成 列表 ps_spec 和 


worker_speCo 


def main(unused_argv): 
mnist = input_data.read_data_sets(FLAGS.data_dir, one_hot=True) 
if FLAGS.job_name is None or FLAGS.job_name == "": 


raise ValueError( "Must specify an explicit ~job_name ") 


if FLAGS.task_index is None or FLAGS.task_index =="": 


raise ValueError("Must specify an explicit ~task_index ") 


print("job name = %s" % FLAGS.job_name) 
print("task index = %d" % FLAGS.task_index) 


ps_spec = FLAGS.ps_hosts.split(",") 


worker_spec = FLAGS.worker_hosts.split(",") 


先 计 算 总 共 的 worker 数 量 ， 然 后 使 用 tf.train.ClusterSpec 生 成 一 个 
TensorFlow Cluster 的 对 象 ， 传 入 的 参数 是 ps 的 地 址 信息 和 worker 的 地 址 信 
息 。 再 使 用 tf.train.Server 创 建 当 前 机 器 的 server， 用 以 连接 到 Cluster。 如 果 
当前 节点 是 parameter server， 则 不 再 进行 后 续 的 操作 ， 而 是 使 用 serverjoin 
等 待 worker 工 作 。 


num_workers = len(worker_spec) 
cluster = tf.train.ClusterSpec({"ps": ps_spec, "worker": worker_spec}) 
server = tf.train.Server( 
cluster, job _name=FLAGS.job_name, task_index=FLAGS.task_index) 
if FLAGS.job_name == "ps": 


server. join() 


这 里 判断 当前 机 器 是 否 为 主 节点 ， 即 task_index 是 否 为 0。 然 后 定义 当 
前 机 器 的 worker_device， 格 式 为 "job:worker/task:0/gpu:0"。 我 们 假定 有 两 
台 机 器 ， 并 且 每 台 机 器 有 1 块 GPU， 则 总 共 需 要 两 个 worker。 如 果 一 台 机 
器 有 多 块 GPU， 可 以 通过 一 个 task 管 理 多 个 GPU 或 者 使 用 多 个 task 分 别管 
理 。 下 面 使 用 tttrain.replica_device_setter0 设置 worker 的 资源 ， 其 中 
worker_device 为 计算 资源 ，ps_device 为 存储 模型 参数 的 资源 。 我 们 通过 
replica_device_setter 将 模型 参数 部 署 在 独立 的 ps 服务 器 “/job:ps/cpu:0”， 并 
将 训练 操作 部 署 在 "/job:worker/task:0/gpu:0"， 即 本 机 的 GPU。 最 后 再 创建 
记录 全 局 训练 步 数 的 变量 global_step。 


is_chief = (FLAGS.task_index == 6) 
worker_device = "/job:worker/task:%d/gpu:@" % FLAGS.task_index 
with tf.device( 

tf.train.replica_device_setter( 


worker_device=worker_device, 


ps_device="/job:ps/cpu:0", 
cluster=cluster)): 


global_step = tf.Variable(@®, name="global_step", trainable= False) 


接 下 来 ， 定 义 神经 网 络 模 型 ， 本 节 的 神经 网 络 和 4.4 节 的 MLP 全 连接 
网 络 基 本 一 致 。 下 面 使 用 tf.truncated_normal 初 始 化 权重 ， 使 用 tf.zeros 初 始 
化 偏 置 ， 创 建 输入 的 placeholder， 并 使 用 tf.nn.xw_plus_b 对 输入 x 进行 矩阵 
乘法 和 加 偏 置 操 作 ， 再 用 ReLU 激 活水 数 处 理 ， 得 到 第 一 个 隐 层 的 输出 
hid。 然 后 使 用 tt.nn.xw_plus_b 和 tt.nn.softmax 对 第 一 层 的 输出 hid 进 行 处 
理 ， 得 到 网 络 的 最 终 输 出 y。 最 后 计算 损失 cross_entropy， 并 定义 优化 器 
A Adamo 


hid w = tf.Variable( 
tf.truncated normal([IMAGE PIXELS*IMAGE PIXELS, FLAGS.hidden_units], 
stddev=1.@ / IMAGE PIXELS), name="hid_w") 
hid_b = tf.Variable(tf.zeros([FLAGS.hidden_units]), name= "hid_b") 


sm_w = tf.Variable( 
tf.truncated_normal([FLAGS.hidden_units, 10], 
stddev=1.0 / math.sqrt(FLAGS.hidden_units)), name="sm_w") 
sm_b = tf.Variable(tf.zeros([10]), name="sm_b") 


x = tf.placeholder(tf.float32, [None, IMAGE PIXELS * IMAGE PIXELS]) 
y_ = tf.placeholder(tf.float32, [None, 10]) 


hid_lin = tf.nn.xw_plus_b(x, hid_w, hid_b) 
hid = tf.nn.relu(hid_lin) 


y = tf.nn.softmax(tf.nn.xw_plus_b(hid, sm_w, sm_b)) 
cross entropy = -tf.reduce_sum(y_ * tf.log(tf.clip_by_value(y, 1e-10, 
1.0))) 


opt = tf.train.AdamOptimizer(FLAGS.learning rate) 


我 们 判断 是 否 设置 了 同步 训练 模式 sync_replicas， 如 果 是 同步 模式 ， 

则 先 获取 同步 更 新 模型 参数 所 需要 的 副本 数 replicas_to_aggregate; WRK 
有 单独 设置 ， 则 使 用 worker 数 作为 默认 值 。 然 后 使 用 
tf.train.SyncReplicasOptimizer 创 建 同步 训练 的 优化 器 ， 它 实质 上 是 对 原 有 
优化 器 的 一 个 扩展 ， 我 们 传 入 原 有 优化 器 及 其 他 参数 

(replicas_to_aggregate, total_num_replicas, replica id) ， 它 就 会 将 原 
有 优化 器 改造 为 同步 的 分 布 式 训练 版 本 。 最 后 ， 使 用 普通 的 〈 即 异步 
BY) 或 同步 的 优化 器 对 损失 cross_entropy 进 行 优化 。 


if FLAGS.sync_replicas: 
if FLAGS.replicas_to_aggregate is None: 
replicas _to_aggregate = num_workers 
else: 


replicas_to_aggregate = FLAGS.replicas_to_aggregate 


opt = tf.train.SyncReplicasOptimizer ( 
opt, 
replicas to_aggregate=replicas_ to_aggregate, 
total_num_replicas=num_workers, 
replica_id=FLAGS.task_index, 


name="mnist_sync_replicas") 


train_step = opt.minimize(cross_ entropy, global_step=global_ step) 


如 果 是 同步 训练 模式 ， 并 且 为 主 节点 ， 则 使 用 
opt.get_chief_queue_runner 创 建 队列 执行 器 ， 并 使 用 opt.get_init_tokens_op 
创建 全 局 参数 初始 化 器 。 


if FLAGS.sync_replicas and is chief: 
chief_queue_runner = opt.get_chief_queue_runner() 


init_tokens_op = opt.get_init_tokens_op() 


下 面 生 成 本 地 的 参数 初始 化 操作 init op， 创 建 临 时 的 训练 目录 ， 并 使 
用 tf.train_Supervisor 创 建 分 布 式 训练 的 监督 器 ， 传 入 的 参数 包括 is_chief、 
train_dir、 init_op 等 。 这 个 Supervisor 会 管理 我 们 的 task 参 与 到 分 布 式 训 


/J\O 


init op = tf.global variables initializer() 

train dir = tempfile.mkdtemp() 

sv = tf.train.Supervisor(is chief=is chief, 
logdir=train dir, 


init_op=init_op， 


recovery_wait_secs=1, 


global_step=global_step) 


然后 设置 Session 的 参数 ， 其 中 allow_soft_placement 设 为 True 代表 当 革 
个 操作 在 指定 的 device 不 能 执行 时 ， 可 以 转 到 其 他 device 执 行 。 


sess config = tf.ConfigProto( 
allow_soft_placement=True, 
log device _placement=False, 
device_filters=["/job:ps", 


"/job:worker/task:%d" % FLAGS.task_index]) 


如 果 为 主 节 点 ， 则 显示 初始 化 Session， 其 他 节点 则 显示 等 待 主 节点 
的 初始 化 操作 。 然 后 执行 sv.prepate_or_wait_for_session()， 若 为 主 节点 则 
会 创建 Session， 若 为 分 支 节点 则 会 等 待 。 


if is chief: 

print("Worker %d: Initializing session..." % FLAGS.task index) 
else: 

print("Worker %d: Waiting for session to be initialized..." % 


FLAGS.task_index) 
sess = Sv.prepare_or_wait_for_session(server.target, config=sess config) 


print("Worker %d: Session initialization complete." % FLAGS.task_index) 


接着 ， 如 果 处 于 同步 模式 并 且 是 主 节 点 ， 则 调用 
svV.start_queue_runners 执 行 队列 化 执行 器 chief_queue_runner， 并 执行 全 局 
的 参数 初始 化 器 init_tokens_op。 


if FLAGS.sync replicas and is chief: 
print("Starting chief queue runner and running init tokens op") 
sv.start_queue_runners(sess, [chief_queue_runner ]) 


sess.run(init_tokens_op) 


下 面 就 正式 到 了 训练 过 程 。 我 们 记录 worker 执 行 训 练 的 启动 时 间 ， 初 
始 化 本 地 训练 的 步 数 local_step， 然 后 进入 训练 循环 。 在 每 一 步 训 练 中 ， 
我 们 从 mnist.train.next_batch 读 取 一 个 batch 的 数据 ， 并 生成 feed_dict， 再 调 
用 train_step 执 行 一 次 训练 。 当 全 局 训练 步 数 达到 我 们 预 设 的 最 大 值 后 ， 
停止 训练 。 


time_begin = time.time() 


print("Training begins @ %f" % time_begin) 


local _step = 6 

while True: 
batch_xs, batch_ys = mnist.train.next_batch(FLAGS.batch_size) 
train_feed = {x: batch_xs, y_: batch_ys} 


_, step = sess.run([train_step, global step], feed dict=train_feed) 


local_step += 1 


now = time.time() 
print("%f: Worker %d: training step %d done (global step: %d)" % 
(now, FLAGS.task_index, local_step, step) ) 


if step >= FLAGS.train_steps: 


break 


训练 结束 后 ， 我 们 展示 总 训练 时 间 ， 并 在 验证 数据 上 计算 预测 结果 
的 损失 cross_entropy， 并 展示 出 来 。 至 此 ， 我 们 的 主 了 图 数 main 全 部 结束 。 


time_end = time.time() 
print("Training ends @ %f" % time_end) 
training time = time_end - time_begin 


print("Training elapsed time: %f s" % training time) 


val feed = {x: mnist.validation.images, y_: mnist.validation.labels} 
val_xent = sess.run(cross entropy, feed_dict=val_feed) 
print("After %d training step(s), validation cross entropy = %g" % 


(FLAGS.train_steps, val_xent)) 
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数 ， 我 们 将 全 部 代码 保存 为 文件 distributed.py。 我 们 需要 在 3 台 不 同 的 机 
器 上 分 别 执行 distributed.py 启 动 3 个 task， 在 每 次 执行 distributed.py 时 我 们 
需要 传 入 job_name 和 task_index 指 定 worker 的 身份 。 


if _name == " main ": 


tf.app.run() 


我 们 分 别 在 三 台 机 B 192.168.233.201 、 192.168.233.202 和 
192.168.233.203 上 执行 下 面 三 行 代码 。 第 一 台 机 器 执行 第 一 行 代码 ， 第 二 
台 机 器 执行 第 二 行 代码 ， 下 同 。 这 样 我 们 就 在 三 台 机 器 上 分 别 启动 了 一 


个 parameter server 及 两 个 workero 


python distributed.py --job_name=ps --task_index=6 
python distributed.py --job_name=worker --task_index=0 


python distributed.py --job_name=worker --task_index=1 


如 果 我 们 想 使 用 同步 模式 ， 只 需要 将 上 面 的 代码 加 上 -- 
sync_replicas=True， 就 可 以 自动 开启 同步 训练 。 注 意 ， 此 时 global_step 和 
异步 不 同 ， 异 步 时 ， 全 局 步 数 是 所 有 worker 训 练 步 数 之 和 ， 同 步 时 则 是 指 
有 多 少 轮 并 行 训练 。 


python distributed.py --job_name=ps --task_index=6 --sync_replicas=True 
python distributed.py --job_name=worker --task_index=@ --sync_replicas=True 


python distributed.py --job_name=worker --task_index=1 --sync_replicas=True 


下 面 是 我 们 在 parameter server 上 显示 出 的 日 志 。 我 们 在 
192.168.233.201:2222 上 顺利 开启 了 PS 的 服务 。 


I tensorflow/core/distributed_runtime/rpc/grpc_channel.cc:197] Initialize Gr 


pcChannelCache for job ps -> {0 -> localhost:2222} 


I tensorflow/core/distributed_runtime/rpc/grpc_channel.cc:197] Initialize Gr 


pcChannelCache for job worker -> {@ -> 192.168.233.202:2223, 


3.203:2224} 


I tensorflow/core/distributed_runtime/rpc/grpc_server_lib.cc: 


rver with target: grpc://localhost:2222 


下 面 是 worker0 在 192.168.233.202 上 的 训练 
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下 面 是 worker1 在 192.168.233.203 上 的 训练 日 志 。 
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se 


至 此 ， 我 们 在 三 台 机 器 上 的 数据 并 行 模式 的 分 布 式 训练 的 示例 就 结 
束 了 ， 读 者 可 以 看 到 用 TensorFlow 实 现 分 布 式 训练 非常 简单 。 我 们 可 以 复 
用 单机 版 本 的 网 络 结构 ， 只 是 在 不 同 机 器 上 训练 不 同 batch 的 数据 ， 并 使 
用 parameter server 统 一 管理 模型 参数 。 另 外 ， 分 布 式 TensorFlow 的 运行 效 
率 也 非常 高 ， 在 16 台 机 器 上 可 以 获得 15 倍 于 单机 的 速度 ， 非 常 适合 大 规 
模 神经 网 络 的 训练 。 


10 ”TF.Learn 从 入 门 到 精通 


TF.Learn 是 TensorFlow 中 的 一 个 很 重要 的 模块 ， 它 包括 各 种 类 型 的 深 
度 学 习 及 流行 的 机 器 学 习 算 法 。 这 个 模块 是 从 之 前 比较 热门 的 TensorFlow 
官方 Scikit Flow 项 目 迁 移 过 来 的 ， 发 起 者 是 谷歌 的 员工 llia Polosukhink 
本 书 作 者 之 一 唐 源 。 代 码 的 风格 采用 数据 科学 界 比较 热门 的 Scikit-learn 风 
格 ， 引 在 帮助 数据 科学 从 业者 更 好 、 更 快 地 适应 和 接受 TensorFlow 的 代 
码 。 它 圳 括 了 许多 TensorFlow 的 代码 和 设计 模式 ， 从 而 使 用 户 能 够 更 快 地 
开始 搭建 自己 的 机 器 学 习 模 型 来 实现 不 同 的 应 用 。 同 时 ， 用 户 也 能 极 大 
地 避免 代码 重复 ， 更 好 地 把 精力 放 在 搭建 更 精确 的 模型 上 。 自 从 
TensorFlow v0.9 版 本 发 布 之 后 ，TF.Learn 能 够 无 颖 地 和 其 他 contrib 模 块 结 
合 起 来 使 用 ， 比 如 contrib.losses、contrib.layer、contrib.metrics， 等 等 (我 
们 会 在 第 11 章 系统 地 介绍 contrib 模 块 ) 。 第 十 章 和 第 十 一 章 将 使 用 
TensorFlow 0.11.0-rc0 版 本 作为 示例 讲解 ， 其 他 版 本 的 代码 可 能 会 出 现 不 
兼容 的 现象 。 


10.1 分 布 式 Fstimator 


本 节 我 们 介绍 Estimator 的 分 布 式 特性 、 自 定义 模型 的 用 法 、Estimator 
的 架构 ， 并 介绍 怎样 建立 自己 的 分 布 式 机 器 学 习 Estimatoro 


10.1.1 ”分布 式 Estimator 自 定义 模型 介绍 


Estimator 包 括 各 种 各 样 的 机 器 学 习 和 深度 学 习 的 类 ， 用 户 能 直接 使 
用 这 些 高 阶 类 ， 同 时 可 以 根据 实际 的 应 用 需求 快速 创建 自己 的 子 类 。 有 
了 graph_actions 模 块 的 帮助 ，Estimator 很 大 一 部 分 在 训练 和 评估 模型 时 需 
要 用 到 的 复杂 的 分 布 式 逻辑 都 被 实现 和 浓缩 ， 使 用 者 就 不 再 需要 把 精力 
放 在 很 复杂 的 Supervisor 和 Coordinator 分 布 式 训 练 具体 实现 细节 和 逻辑 上 
面 。 


Estimator 接 受 自 定义 模型 ， 目 前 它 接受 以 下 几 组 不 同 的 函数 签名 。 
(1) (features,targets) -> (predictions,loss,train_op) 


(2) (features,targets,smode) -> (predictions, loss,train_op) 


(3) (features,targets,smode,params) -> (predictions,loss,train_op) 


我 们 以 第 一 组 水 数 签名 举例 说 明 ， 以 下 是 一 个 简单 的 自 定义 的 模 


型 。 
import tensorflow as tf 
from tensorflow.contrib import layers 


from tensorflow.contrib import learn 


def my_model(features, target): 

target = tf.one_hot(target, 3, 1, 0) 

features = layers.stack(features, layers.fully_connected, [10, 20, 10]) 

prediction, loss = 
tf.contrib.learn.models.logistic_regression_zero_init(features, 

target) 

train_op = tf.contrib.layers.optimize_loss( 
loss, tf.contrib.framework.get_global_step(), optimizer='Adagrad', 
learning rate=0.1) 

return {'class': tf.argmax(prediction, 1), ‘prob': prediction}, loss, 


train_op 


这 个 自 定义 模型 接受 两 个 参数 : features 和 targets。features 是 数据 的 
特征 ，targets 是 数据 特征 每 一 行 的 目标 或 者 分 类 的 标识 ， 利 用 tf.one_hot 对 
targets 进 行 读 热 编码 (One-hot Encoding)， 让 接 下 来 损失 函数 的 计算 更 方 
便 。 接 下 来 ， 用 layers.stack 蕉 加 多 层 layers.fully_connected 完 全 连接 的 深度 
神经 网 络 ， 每 一 层 分 别 有 10、20、10 个 隐藏 节点 ， 通 过 不 同 层 的 转换 和 
训练 ， 得 到 新 的 数据 特征 。TF.Learn 里 面 的 models 模 块 有 很 多 经 常 使 用 的 
模型 (比如 逻辑 回归 ) ， 这 里 我 们 用 models.logistic_regression_zero_init 加 
一 层 ， 以 0 作为 初始 参数 值 的 逻辑 回归 模型 ， 这 也 是 深度 学 习 里 比较 常用 
的 一 种 方法 ， 从 而 得 到 最 后 的 预测 值 和 损失 值 。 最 后 ， 使 用 
contrib.layers.optimize_loss 汶 数 对 损失 值 进 行 优 化 ， 可 以 根据 需要 选择 不 
同 的 优化 函数 和 学 习 率 ，optimize_loss 会 得 到 一 个 训练 算 子 (Training 
Operator) ， 在 每 次 训练 迭代 时 会 被 用 来 优化 模型 的 参数 和 决定 模型 发 展 
的 方向 。 这 个 自 定 义 模型 水 数 需要 返回 一 些 要 求 的 值 ， 比 如 预测 值 及 预 
测 概率 、 损 失 值 和 训练 算 子 。 读 者 可 以 比较 灵活 地 使 用 Python 的 字典 来 返 


回 预 测 值 及 预测 概率 ， 也 可 以 只 返回 预测 值 和 预测 概率 中 的 一 个 ， 这 样 
做 的 主要 目的 是 在 之 后 能 够 更 方便 地 使 用 estimatorpredict 鸭 数 。 


接 下 来 ， 我 们 把 定义 好 的 模型 运用 到 比较 常用 的 iris 数 据 进行 分 类 。 
from sklearn import datasets, cross_validation 


iris = datasets.load_iris() 
x_train, x_test, y_train, y_test = cross validation.train_ test_split( 


iris.data, iris.target, test_size=@.2, random_state=35) 


classifier = learn.Estimator(model_fn=my_model1) 


classifier.fit(x_train, y_train, steps=70@) 


predictions = classifier.predict(x_test) 


我 们 利用 Scikit-leam 的 datasets 引 入 数据 ， 并 用 cross_validation 把 数据 
分 为 训练 和 评估 。 接 下 来 把 我 们 定义 好 的 my model 直 接 放 进 
learn.Estimator 就 可 以 使 用 Scikit-learn 风 格 的 ft 和 predict 国 数 。 通 过 快速 和 
简单 地 定义 自己 的 模型 水 数 ， 能 直接 利用 Estimator 的 各 种 功能 ， 也 能 够 
直接 进行 分 布 式 模型 训练 ， 完 全 不 用 担心 许多 实现 的 细节 [比如 不 同 的 线 
程 之 间 的 交流 和 主 监 督 (Master Supervisor) 的 建立 ]。 


目前 我 们 只 介绍 了 其 中 一 种 自 定义 遂 数 签名 ， 其 他 的 水 数 签名 大 同 
小 异 。 简 单 来 说 ， 模 式 (Mode) 可 以 被 用 来 定义 遂 数 的 使 用 阶段 ， 例 如 
training、evaluation ， 以 及 prediction。 这 些 常用 的 模式 可 以 在 ModeKeys 
里 面 找到 。 一 些 比较 复杂 的 深度 学 习 模 型 可 能 会 包含 一 些 特殊 的 层 ， 例 
如 batch normalization 层 要 求 一 些 计 算 只 发 生 在 训练 期 间 ， 而 评估 期 间 需 
要 跳 过 那些 计算 ， 所 以 可 以 在 自 定 义 函 数 里 加 一 些 条 件 语 句 来 实现 这 样 
的 复杂 逻辑 。params 是 可 以 由 自 定 义 模型 来 调节 的 参数 ， 读 者 使 用 fit 了 因数 
时 可 以 给 更 多 的 参数 。 具 体 细节 请 参考 TF.Learn 的 官方 文档 。 


10.1.2 ”建立 自己 的 机 器 学 习 Estimator 


10.1.1 节 我 们 简单 介绍 了 怎样 用 自 定义 的 模型 使 用 Estimator， 接 下 
来 ， 我 们 来 了 解 Estimator 的 一 些 基本 架构 及 如 何 通 过 实现 自己 的 Estimator 
子 类 建立 自己 的 机 器 学 习 分 布 式 Estimatoro 


BaseEstimator 是 最 抽象 也 是 最 基本 的 实现 TensorFlow 模 型 的 训练 和 评 
估 的 类 。 它 提供 了 许多 简单 易 用 的 功能 ， 比 如 用 fit() 对 模型 进行 训练 ， 用 
partial_fit() 进 行 线 上 训练 ， 用 evaluateO) 评 估 模 型 ， 用 predict() 使 用 模型 并 
对 新 的 数据 进行 预测 ， 等 等 。 它 利用 了 许多 包含 在 graph_actions 里 很 复杂 
的 逻辑 进行 模型 的 训练 和 预测 。 前 面 章 节 简单 提 到 过 它 包 含 了 许多 类 似 
Supervisor, Coordinator、QueueRunner 的 使 用 ， 从 而 使 它 能 够 进行 分 布 式 
地 训练 和 预测 。 它 也 使 用 了 许多 learn.DataFeeder 或 者 learn.DataFrame 的 类 
RAMR a, VMHMBRA AAR DRE. BME 
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(Sparse Tensor) ]， 使 数据 的 读 入 更 加 方便 和 稳定 。 与 此 同时 ， 

BaseEstimator 也 对 learn.monitors 及 模型 的 存储 等 进行 了 初始 化 设置 。 
learn.monitors 是 用 来 监测 模型 的 训练 的 ， 在 接 下 来 的 章节 里 我 们 也 会 对 它 
进行 简单 的 介绍 。 

里 然 BaseEstimator 已 经 提供 了 大 多 数 建 立 和 评估 模型 要 求 的 逻辑 ， 但 
它 却 把 _get_train_ops()、_get_eval_ops() 和 _get_predict_ops() 等 实现 留 给 了 
它 的 子 类 ， 从 而 让 它 的 子 类 能 够 更 自由 地 实现 自 定义 的 一 些 逻 辑 处 理 。 
10.1.1 节 中 我 们 使 用 到 的 Estimator 刚 好 提供 了 怎样 实现 BaseEstimator 那 些 
未 实现 方法 的 样本 。 


我 们 以 Estimator 为 例 ， 它 的 _get_train_opsO 接 受 features 和 targets 为 参 
数 ， 使 用 自 定义 的 模型 疯 数 返回 一 个 Operation 和 损失 Tensor 的 Tuple， 这 
个 遂 数 会 被 用 来 在 每 个 训练 迭代 时 对 模型 的 参数 进行 优化 。 如 果 想 实现 
自己 的 Estimator， 你 有 绝对 的 自由 来 决定 训练 的 逻辑 。 例 如 ， 如 果 想 实 
现 一 个 非 监督 学 习 模 型 的 Estimator， 那 么 可 以 在 这 个 图 数 里 对 targets 进 行 
忽略 。 


和 _get_train_ops() 类 似 ，_get_eval_ops() 让 BaseEstimator 的 子 类 来 使 用 
自 定 义 的 metrics 评 估 每 个 模型 训练 的 迭代 。 在 TensorFlow 高 阶 的 模块 里 ， 
比如 contrib.metrics， 可 以 找到 许多 直接 使 用 的 metrics， 第 11 章 会 对 这 个 
模块 进行 简单 的 介绍 。 自 定义 的 metrics 国 数 需 要 返回 一 个 Tensor 对 象 的 
Python 字典 来 代表 评估 Operation ， 每 次 迭代 时 都 会 被 用 到 。 以 下 是 
Estimator 的 _get_train_ops() 的 实现 : 


predictions, loss, = self._call_model_fn(features, targets, ModeKeys.EVAL) 


result = {'loss': contrib.metrics.streaming mean(loss) } 


先 用 到 目 定 义 的 模型 对 新 的 数据 进行 预测 和 计算 损失 值 ， 用 
ModeKeys 中 的 EVAL 表 明 这 个 遂 数 只 会 在 评估 时 被 用 到 ， 然 后 用 到 了 
contrib.metrics 模 块 里 的 streaming_mean 对 loss 计 算 平 均 流 ， 也 就 是 在 之 前 
计算 过 的 平均 值 基础 上 加 上 这 次 迭代 的 损失 值 再 计算 平均 值 。 


_get_predict_ops() 是 用 来 实现 自 定义 的 预测 的 ， 例 如 在 这 个 遂 数 里 可 
以 对 预测 的 结果 进行 进一步 的 处 理 。 再 比如 ， 把 预测 概率 转换 成 简单 的 
预测 结果 ， 把 概率 进行 平滑 加 工 (Smoothing) ， 等 等 。 这 个 图 数 需要 返 
回 一 个 Tensor 对 象 的 Python 字典 来 代表 预测 Operation。 一 旦 这 个 阔 数 被 实 
现 ， 就 可 以 很 轻松 地 使 用 Estimator 的 predict0 阔 数 ， 充 分 利用 Estimator 的 
分 布 式 功能 ， 完 全 不 用 担心 一 些 复 杂 的 内 部 实现 逻辑 。 如 果 想 建立 非 监 
督 模型 ， 也 可 以 很 快 地 在 这 个 基础 之 上 实现 一 个 类 似 Scikit-leam 里 面 的 
transform) Žo 


在 TF.Learm 的 模块 里 也 可 以 找到 许多 自 定 义 机 器 学 习 Estimator 的 例 
子 ， 例 如 逻辑 回归 (LogisticRegressor) 。 由 于 Estimator 已 经 提供 了 绝 大 
部 分 需要 的 实现 ，LogisticRegressor 只 需要 提供 自己 的 metrics (例如 
AUC、accuracy、Pprecision, 以 及 recall， 只 用 来 处 理 二 分 类 的 问题 ) ， 所 以 
可 以 很 快 地 在 LogisticRegressor 的 基础 上 写 一 个 子 类 来 实现 一 个 更 个 性 化 
的 二 分 类 的 Estimator， 完 全 不 需要 担心 其 他 逻辑 的 实现 。 


TF.Leam 里 的 随机 森林 模型 TensorForestEstimator 把 许多 很 细节 的 实现 
放 到 了 contrib.tensor_forest 里 ， 只 利用 和 暴露 一 些 比较 高 阶 的 ， 需 要 用 到 
的 成 分 到 TensorForestEstimator 里 ， 这 样 用 户 就 能 更 轻松 地 使 用 这 个 高 阶 
机 器 学 习 模 块 。 下 面 的 代码 中 ， 它 所 有 的 超 参 数 都 通过 
contrib.tensor_forest.ForestHParams 被 传 到 构造 国 数 的 params 里 ， 然后 在 构 
ie PR 2X E fE FR params. fill() 建造 随机 森林 的 TensorFlow 图 ， 也 就 是 
tensor forest.RandomForestGraphs。 


class TensorForestEstimator(estimator.BaseEstimator): 


"""An estimator that can train and evaluate a random forest.""" 


def _init__(self, params, device_assigner=None, model_dir=None, 


graph_builder_class=tensor_forest.RandomForestGraphs, 
master='', accuracy_metric=None, 
tf_random_seed=None, config=None): 
self.params = params.fill() 
self.accuracy_metric = (accuracy_metric or 
('r2' if self.params.regression else ‘accuracy')) 
self.data_feeder = None 
self.device_assigner = ( 
device_assigner or tensor_forest.RandomForestDeviceAssigner() ) 
self.graph_builder_class = graph_builder_class 
self.training args = {} 


self.construction_args = {} 


super(TensorForestEstimator, self). init (model dir=model dir, 


config=config) 


由 于 很 多 实现 太 复 杂 而 且 通 常 需要 非常 有 效率 ， 它 的 很 多 细节 都 用 
C++ 实 现 了 单独 的 Kernel。 它 的 _get_predict_ops() 冰 数 首先 使 用 
tensor_forest 内 部 C++ 实现 的 data_ops.ParseDataTensorOrDictO 国 数 检 测 和 
转换 读 入 的 数据 到 可 支持 的 数据 类 型 ， 然 后 利用 RandomForestGraphs 的 
inference_graph 卫 数 得 到 预测 的 Operation。 


def _get_predict_ops(self, features): 
graph_builder = self.graph_builder_class( 
self.params, device_assigner=self.device_assigner, training=False, 
**self.construction_args) 
features, spec = data_ops.ParseDataTensorOrDict (features) 
_assert_float32(features) 


return graph_builder.inference graph(features, data spec= spec) 


类 似 地 ， 它 的 _get train_ops0 和 _get_eval_ops() R 2X 3 a! VI AA T 
RandomForest Graphs.training loss() 和 
RandomForestGraphs.inference_graph) KR , tC 使 用 了 


data_ops.ParseDataTensorOrDict 和 data_ops.ParseLabelTensorOrDict 分 别 检 
测 和 转换 features 和 targets 到 可 兼容 的 数据 类 型 。 


希望 以 上 关于 Estimator 架 构 的 介绍 和 几 个 例子 能 够 帮助 读者 更 好 地 
了 解 Estimator。 一 旦 读者 建立 好 了 自己 的 机 器 学 习 Estimator 或 者 准备 好 使 
用 Estimator， 可 以 轻松 地 在 多 台 机 器 上 、 多 个 服务 器 上 进行 分 布 式 的 模 
型 训练 ，10.1.3 节 会 介绍 RunConfig 来 帮助 读者 更 好 地 调节 程序 运行 时 参 
数 。 

10.1.3 ”调节 RunConfig 运 行 时 参数 


RunConfig 是 TF.Learn 里 的 一 个 类 ， 用 来 帮助 用 户 调节 程序 运行 时 参 
数 ， 例 如 用 num_cores 选 择 使 用 的 核 的 数量 ， 用 num_ps_replicas 调 节 参 数 
服务 器 的 数量 ， 用 gpu_memory_fraction 控 制 使 用 的 GPU 存储 的 百分比 ， 
SS 


值得 注意 的 是 ，RunConfig 里 master 这 个 参数 是 用 来 指定 训练 模型 的 
主 服 务 器 地 址 的 ，task 是 用 来 设置 任务 ID 的 ， 每 个 任务 ID 控制 一 个 训练 模 
型 参数 服务 器 的 replica。 以 下 是 一 个 例子 ， 读 者 可 以 先 初 始 化 一 个 
RunConfig 对 象 ， 再 把 这 个 对 象 传 进 Estimator 里 。 


config = tf.contrib.learn.RunConfig(task=@, master="", 
gpu_memory_fraction=0.8) 


est = tf.contrib.learn.Estimator(model_fn=custom_model, config= config) 


以 上 例子 是 使 用 RunConfig 人 参数 的 默认 值 在 本 地 运行 一 个 简单 的 模 
型 ， 只 使 用 一 个 任务 ID 和 80% 的 GPU 存储 作为 参数 传 进 Estimator 里 。 当 读 
者 运行 时 ， 这 些 运行 时 参数 会 被 自动 运用 上 ， 不 用 担心 ConfigProto、 
GPUOptions 之 类 的 使 用 细节 。 读 者 可 以 快速 地 改变 这 些 参 数 来 实现 分 布 
式 模型 的 训练 及 参数 服务 器 的 使 用 ，10.1.4 节 会 简单 介绍 。 注 意 ， 这 些 
API 未 来 会 有 改动 ， 所 以 最 新 的 使 用 方法 请 参考 TF.Learn 官 方 文档 。 


10.1.4 Experiment 和 LearnRunner 


Experiment 是 一 个 简单 易 用 的 建立 模型 实验 的 类 ， 它 包含 了 建 模 所 需 
要 的 所 有 信息 ， 例 如 Estimator、 训 练 数据 、 评 估 数 据 、 评 估 指 标 、 监 督 
器 、 评 估 频 率 ， 等 等 。 可 以 选择 在 当地 运行 ， 也 可 以 和 RunConfig 配 合 进 
行 分 布 式 地 试验 。LearmRunner 是 用 来 方便 做 实验 的 一 个 模块 。 接 下 来 我 
们 举 个 简单 的 例子 说 明 。 


先 用 tf.app.flags 定 义 一 些 可 以 从 命令 行 传 入 的 参数 ， 例 如 数据 、 模 
型 、 输 出 文件 的 路 径 、 训 练 和 评估 的 步 数 等 。 这 里 有 几 个 值得 注意 的 参 
数 。schedule 是 指 想 做 的 试验 类 型 ， 比 如 使 用 local_run0 在 当地 做 试验 ， 
可 能 的 一 些 选 项 是 Experiment 里 面 的 一 些 孙 数 名 字 ， 例 如 run_std_server0) 
可 以 在 标准 服务 器 上 做 试验 。master_grpc_url 是 主要 的 GRPC TensorFlow 
服务 器 。num_parameter_servers 是 参数 服务 器 的 数量 ， 等 等 。 


flags = tf.app.flags 
flags.DEFINE string("data dir", "/tmp/census-data", 

"Directory for storing the cesnsus data data") 
flags.DEFINE string("model dir", "/tmp/census wide and deep model", 

"Directory for storing the model") 
flags.DEFINE string("output dir", "", "Base output directory.") 
flags.DEFINE string("schedule", "local run", 

"Schedule to run for this experiment.") 
flags.DEFINE string("master grpc url", "", 

"URL to master GRPC tensorflow server, e.g.," 

"erpc://127.0.0.1:2222") 
flags.DEFINE_integer("num_parameter_servers", 0, 

"Number of parameter servers") 
flags.DEFINE_integer("worker_index", ©, "Worker index (>=0)") 
flags.DEFINE_integer("train_steps", 1000, "Number of training steps") 
flags.DEFINE_integer("eval_steps", 1, "Number of evaluation steps") 


FLAGS = flags.FLAGS 


接 下 来 瑟 一 个 建立 Experiment 对 象 的 水 数 ， 在 这 个 水 数 里 首先 使 用 之 
前 设置 好 的 一 些 FLAGS 建 立 好 RunConfig 及 想 要 建立 的 机 器 学 习 模 型 
Estimator ， X 里 我 们 建立 广度 深度 结合 分 类 器 

(DNNLinearCombinedClassifier) 。 注 意 ， 我 们 省 略 了 input_train_fn 和 
input_test_ 名 的 定义 ， 这 两 个 方程 会 定义 数据 的 来 产 、 提 供 训练 ， 以 及 评 
估 所 用 的 数据 。 我 们 在 接 下 来 的 机 器 学 习 Estimator 里 都 会 用 到 。 不 同 的 
数据 有 不 同 的 导入 方法 ， 在 这 里 我 们 就 不 详细 介绍 了 。 


def create experiment fn(output dir): 
config = run_config.RunConfig(master=FLAGS.master_grpc_url, 
num_ps_replicas=FLAGS.num_parameter_servers, 


task=FLAGS.worker_index) 


estimator = tf.contrib.learn.DNNLinearCombinedClassifier( 
model_dir=FLAGS.model_dir, 


linear_feature_columns=wide_columns, 


dnn_feature_columns=deep_columns, 

dnn_hidden_units=[5], 

config=config) 

return tf.contrib. learn. Experiment ( 

estimator=estimator, 
train_input_fn=data_source.input_train_fn, 
eval_input_fn=data_source.input_test_fn, 
train_steps=FLAGS.train_steps, 


eval_steps=FLAGS.eval_steps) 


然后 就 可 以 把 create_experiment_ fn0 国 数 传 入 LearnRunner 里 进行 不 同 
类 型 的 试验 ， 例 如 当地 试验 或 者 服务 器 试验 ， 以 及 把 试验 的 结果 存储 到 
不 同 的 路 径 中 ， 代 码 如 下 。 


learn_runner.run(experiment_fn=create_experiment_fn, 
output_dir=FLAGS.output_dir, 
schedule=FLAGS. schedule) 


10.2 ”深度 学 习 Estimator 


TF.Leam 里 包含 了 许多 深度 学 习 Estimator 的 实现 ， 高 阶 的 API 让 用 户 
使 用 起 来 更 方便 。 本 节 介 绍 一 些 基 本 的 高 阶 深度 学 习 API 及 它们 和 
TensorFlow 其 他 模块 结合 使 用 的 例子 。 


10.2.1 ”深度 神经 网 络 


TF.Learn 里 包含 简单 易 用 的 深度 神经 网 络 Estimator， 例 如 分 类 问题 可 
以 使 用 DNNClassifier， 下 面 我 们 介绍 一 个 最 简单 的 例子 。 先 在 _input_fn() 
里 建立 数据 ， 这 里 使 用 layers 模 块 建立 两 个 特征 列 一 一 年 龄 和 语言 (后面 
我 们 将 详细 介绍 它们 的 使 用 方法 ) 。 


def input fn(num epochs=None): 
features = {'age': tf.train.limit_epochs(tf.constant([[.8],[.2],[.1]]), 
num_epochs=num_epochs), 
‘language’: tf.SparseTensor(values=[‘en', ‘fr', ‘zh'], 
indices=[[0, 0],[@, 1],[2, 9]], 
shape=[3, 2])} 


return features, tf.constant([[1], [0], [@]], dtype=tf.int32) 


language column = tf.contrib.layers.sparse_column_with_hash_bucket( 
‘language’, hash_bucket_size=20) 
feature_columns = [ 
tf.contrib.layers.embedding column(language_ column, dimension=1), 


tf.contrib.layers.real_valued_column( ‘age’ ) 


接着 就 把 特征 列 、 每 层 的 隐藏 神经 单元 数 、 标 识 类 别 数 等 传 入 
DNNClassifier 里 来 迅速 地 建立 我 们 的 深度 神经 网 络 模型 。 


classifier = tf.contrib.learn.DNNClassifier( 
n_classes=2, 
feature_columns=feature_columns, 
hidden_units=[3, 3], 


config=tf.contrib.learn.RunConfig(tf_random_seed=1) ) 


然后 使 用 我 们 习惯 的 fit()、evaluate() 等 方法 进行 模型 的 训练 和 评估 。 


classifier.fit(input_fn=_input_fn, steps=100) 


scores = classifier.evaluate(input_fn=_input_fn, steps=1) 


在 许多 实际 应 用 中 ， 每 行 数 据 都 有 它们 的 权重 ， 比 如 在 图 片 分 类 运 
用 中 ， 每 张 图 片 的 标识 来 自 于 不 同 的 标识 者 ， 它 们 的 可 信 度 不 一 样 ， 所 
以 每 张 图 片 的 标识 权重 也 不 同 。 在 DNNClassfier 中 ， 我 们 可 以 指定 一 列 为 
权重 列 ， 然 后 它 会 帮 有 我 们 自动 分 配 到 训练 过 程 中 去 。 在 以 下 的 例子 中 ， 
我 们 建立 四 行 数 据 ， 每 行 有 不 同 的 权重 ， 我 们 先 把 权重 列 和 特征 列 放 在 
features 里 面 。 


def _input_fn_train(): 
target = tf.constant([[1], [0], [@], [@]]) 
features = { 
"x': tf.ones(shape=[4, 1], dtype=tf.float32), 
‘w': tf.constant([[100.], [3.], [2.], [2.]]) 
} 


return features, target 


然后 就 可 以 在 DNNClassifier 中 表明 权重 列 的 列 名 ， 在 这 里 也 就 是 w， 
然后 表明 特征 列 的 列 名 x CES: 我 们 需要 将 x 转换 为 特征 列 ) o 


classifier = tf.contrib.learn.DNNClassifier( 
weight_column_name='w', 
feature_columns=[tf.contrib.layers.real_valued_column('x')], 
hidden_units=[3, 3], 


config=tf.contrib.learn.RunConfig(tf_random_seed=3) ) 


classifier. fit(input_fn=_input_fn_train, steps=100) 


我 们 也 可 以 传 入 进 我 们 自 定义 的 metrics 方 程 my_metric_op()， 需 要 
做 的 就 是 操作 predictions 和 targets 进 行 我 们 心目 中 的 metrics 计 算 ， 此 处 只 
考虑 二 分 类 的 问题 ， 使 用 tt.slice0) 和 剪 切 predictions 的 第 二 列 当 作 最 终 的 预测 
值 。 


def input fn train(): 
target = tf.constant([[1], [0], [0], [@]]) 
features = {'x': tf.ones(shape=[4, 1], dtype=tf.float32), } 


return features, target 


def _my_metric_op(predictions, targets): 
predictions = tf.slice(predictions, [@, 1], [-1, 1]) 


return tf.reduce_sum(tf.mul(predictions, targets)) 


这 里 我 们 举 个 例子 来 帮助 理解 tt.slice0， 假 设 我 们 有 以 下 矩阵 。 


input = [[[1， 1, 1], [2, 2; 2]]， 
[[3，3，3]，[4，4，4]]， 
HS S Sla S Ss SIN 


tfslice) FREA AE input, HARAT Rbegin, ANSHS 
Tensor 的 形状 size，size 自 代表 了 第 i 个 维度 想 剪 切 的 矩阵 的 shape， 例 如 
tf.slice(input,[1,0,0],[1,1,3]) 可 以 得 到 [[[3,3,3]]]; tf.slice(input,[1,0,0],[1,2,3]) 
可 以 得 到 [[[3,3,3],[4,4,4]]]。 


我 们 根据 需求 任意 地 在 predictions 和 targets 上 操作 来 实现 想 要 的 
metrics 计 算 ， 然 后 就 可 以 在 evaluate0 时 传 入 自己 定义 好 的 metrics 图 数 ， 
TF.Learn 会 根据 你 所 指示 的 metrics 评 估 模 型 。 


classifier = tf.contrib.learn.DNNClassifier ( 
feature_columns=[tf.contrib.layers.real_valued_column('x')], 
hidden_units=[3, 3], 


config=tf.contrib.learn.RunConfig(tf_random_seed=1) ) 
classifier.fit(input_fn=_input_fn_train, steps=10@) 


scores = Classifier.evaluate( 
input_fn=_input_fn_train, 
steps=100, 
metrics={ 
"my_accuracy': tf.contrib.metrics.streaming accuracy, 
('my_precision', '‘classes'): tf.contrib.metrics.streaming precision, 


('my_metric', ‘probabilities'): _my_metric_op}) 


值得 注意 的 是 ， 我 们 可 以 在 evaluate0 时 提供 多 个 metrics， 其 中 一 个 
_my_metric_op 是 我 们 之 前 自 定 义 好 的 ， 其 他 两 个 是 tf.contrib 里 自 带 的 ， 
之 后 的 章节 中 也 会 简单 提 到 一 些 内 建 的 metrics 的 用 法 。 


我 们 也 可 以 在 提供 optimizer 时 提供 自己 定义 的 水 数 ， 例 如 ， 可 以 定义 
自己 的 优化 函数 来 包含 指数 递减 的 学 习 率 。 


def optimizer_exp decay(): 
global step = tf.contrib.framework.get_or_create_ global step() 
learning rate = tf.train.exponential_ decay( 
learning rate=0.1, global _step=global_ step, 
decay_steps=100, decay _rate=0.001) 


return tf.train.AdagradOptimizer(learning rate=learning rate) 


这 里 用 tf.contrib.framework.get_or_create_global_step() 得 到 目前 模型 训 
练 到 达 的 全 局 步 数 ， 然 后 使 用 tf.train.exponential_decay() 对 学 习 率 进行 指 
数 递 减 ， 这 种 方法 在 许多 应 用 中 特别 常用 ， 尤 其 是 用 来 避免 爆炸 梯度 之 
类 的 问题 。 

接着 可 以 将 这 个 目 定 义 的 优化 函数 放 入 DNNC1lassifier 里 继续 使 用 我 
们 熟悉 的 方法 建立 深度 神经 网 络 分 类 器 及 它 的 训练 ， 我 们 用 iris 数 据 举 个 


例子 。 


iris = datasets.load_ iris() 
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, 


test_size=0.2, random_state=42) 


feature_columns = tf.contrib.learn.infer_real_valued_columns_from_input( 
x_train) 
classifier = tf.contrib.learn.DNNClassifier(feature_columns=feature_ columns, 
hidden_units=[10, 20, 10], 
n_classes=3, 


optimizer=optimizer_exp decay) 


classifier.fit(x_train, y_train, steps=80@) 


10.2.2 ”广度 深度 模型 


广度 深度 模型 的 DNNLinearCombinedClassifier 是 谷歌 最 新 研究 的 成 
果 ， 人 研究 团队 将 这 个 模型 在 TF.Leam 里 面 实现 ， 然 后 开源 ， 这 样 更 有 利于 
其 他 研究 者 再 次 重复 实验 结果 及 学 习 。 这 个 模型 被 谷歌 广泛 地 利用 在 各 
种 机 器 学 习 应 用 中 ， 它 是 深度 神经 网 络 和 逻辑 回归 的 结合 ， 因 为 在 谷歌 
的 研究 中 发 现 ， 将 不 同 的 特征 通过 两 种 不 同 的 方式 结合 起 来 ， 更 能 够 体 
现 应 用 的 意义 及 更 有 效 的 推荐 结果 ， 这 其 实 也 和 Kaggle 竞 赛 中 经 常 使 用 
的 Ensemble 的 方法 比较 类 似 。 


使 FA 的 DNNLinearCombinedClassifier 的 方法 和 之 前 介绍 的 
DNNClassifier 及 在 接 下 来 将 介绍 的 LinearClassfier 的 使 用 方法 类 似 ， 唯 一 
的 区 别 是 你 有 更 多 的 参数 ， 并 且 可 以 将 不 同 的 特征 列 选 择 使 用 到 
DNNClassifier 或 者 LinearClassfier 中 。 


gender = tf.contrib.layers.sparse_column_with_keys( 
"gender", keys=["female", "male"]) 

education = tf.contrib.layers.sparse_column_with_hash_bucket( 
"education", hash_bucket_size=1000) 

relationship = tf.contrib.layers.sparse_column_with_hash_bucket( 
"relationship", hash_bucket_size=100) 


workclass = tf.contrib.layers.sparse_column_with_hash_bucket( 
"workclass", hash_bucket_size=10@) 


wide columns = [gender, education] 


deep columns = [relationship, workclass] 


m = tf.contrib.learn.DNNLinearCombinedClassifier( 
model_dir=model_dir, 
linear_feature_columns=wide_ columns, 
dnn_feature_columns=deep_columns, 


dnn_hidden_units=[100, 50]) 


我 们 将 gender 、 education 、 relationship ~ workclass 都 转换 为 
FeatureColumn ， 这 是 特征 工程 中 特别 重要 的 一 步 。 然 后 ， 将 它们 分 为 
wide_columns 和 deep_columns， 其 中 wide_columns 将 被 用 在 LinearClassifier 
中 ，deep_columns 会 被 用 在 DNNClassifier 中 ， 然 后 将 它们 分 别传 入 
DNNLinearCombinedClassifier 建 立 广 度 深度 模型 ， 这 样 模型 既 具 有 线性 特 
征 ， 也 具有 深度 神经 网 络 特征 。 官 方 网 站 的 Tutorials 

(https://www.tensorflow.org/tutorials/) 上 有 非常 有 意思 的 例子 ， 建 议 读者 
去 学 习 并 应 用 到 自己 的 项 目 中 。 


10.3 ”机 器 学 习 Estimator 


TF.Learn 里 不 仪 包括 了 许多 流行 的 深度 学 习 Estimator， 还 包括 了 各 种 
各 样 的 机 器 学 习 算 法 ， 例 如 随机 和 森林、 支持 向 量 机 ， 等 等 。 这 让 TF.Learn 
及 TensorFlow 与 现 有 的 其 他 软件 包 的 界限 和 特色 更 明显 。 在 谷歌 内 部 的 大 


力 支持 及 外 部 开源 社区 的 代码 贡献 下 ， 相 信 TF.Learn 会 成 为 未 来 的 分 布 式 
Scikit-learn。 接 下 来 ， 我 们 将 介绍 TF.Leam 里 比较 流行 的 机 器 学 习 高 阶 
API, 

10.3.1 ”线性 /逻辑 回归 

使 用 TF.Learn 建 立 大 家 熟悉 的 线性 或 者 逻辑 回归 非常 简单 ， 与 之 前 提 
到 的 深度 神经 网 络 的 使 用 方法 类 似 。 

举 个 简单 的 例子 ， 假 设 我 们 在 input_fn() 里 建立 简单 的 两 个 特征 列 的 
数据 ， 分 别 是 年 龄 和 语言 ， 以 及 它们 的 标识 ， 这 里 我 们 用 简单 的 常数 代 
蔡 靖 述 ， 使 用 在 后 面 章节 会 提 到 的 特征 列 API 建 立 稀 疏 的 语言 特征 列 和 真 
值 的 特征 列 。 


def input fn(): 
return { 
"age': tf.constant([1]), 
'language': tf.SparseTensor(values=[ 'english'], 
indices=[[6，6]]， 
shape=[1, 1]) 
}, tf.constant([[1]]) 


language = tf.contrib.layers.sparse_column_with_hash_bucket('language', 100) 


age = tf.contrib.layers.real_ valued _column( ‘age’ ) 


然后 就 可 以 将 这 些 特征 列传 入 LinearClassifier 里 建立 逻辑 回归 分 类 
器 ， 使 用 熟悉 的 fit0 、evaluate0 等 图 数 。 注 意 ， 我 们 可 以 使 用 
get_variable_names() 得 到 所 有 模型 包 含 的 变量 的 名 称 : 


classifier = tf.contrib.learn.LinearClassifier( 

feature columns=[age, language]) 
classifier.fit(input fn=input fn, steps=100) 
classifier.evaluate(input_fn=input_fn, steps=1)['loss'] 


classifier.get_variable_names() 


类 似 地 ， 我 们 也 可 以 像 前 文 介绍 的 那样 ， 使 用 自 定 义 的 优化 函数 ， 
这 里 使 用 tf.train.FtrlOptimizer() 进 行 优化 ， 也 可 以 对 它 进行 任意 改动 然后 


传 到 LinearClassifier 里 : 


classifier = tf.contrib.learn.LinearClassifier( 
n_classes=3, 
optimizer=tf.train.FtrlOptimizer(learning rate=0.1), 


feature_columns=[feature_column]) 


10.3.2 ”随机 森林 

随机 森林 是 在 工业 界 得 到 广泛 应 用 的 一 种 机 器 学 习 算 法 ， 它 是 一 个 
包含 多 个 决策 树 的 分 类 器 及 回归 算法 。 在 许多 实际 的 运用 中 ， 它 的 效果 
非常 好 ， 尤 其 是 处 理 不 平衡 的 分 类 资料 集 时 ， 它 极 大 地 平衡 了 误差 。 在 
许多 Kaggle 数 据 科 学 竞赛 中 ， 它 的 延伸 版 XGBoost 更 是 帮助 了 许多 竞赛 者 
取得 了 优异 的 成 绩 。 

TF.Learn 里 含有 随机 和 森林 Estimator， 接 下 来 我 们 用 iris 数 据 及 随机 和 森林 


Estimator 进 行 分 类 。 


hparams = tf.contrib.tensor_forest.python.tensor_forest. ForestHParams( 
num_trees=3, max_nodes=100@, num_classes=3, num_features=4) 


classifier = tf.contrib.learn.TensorForestEstimator(hparams ) 


在 之 前 的 章节 中 讲解 过 TensorForestEstimator 代 人 码 的 内 部 架构 ， 首 先 
需要 使 用 tensor_forest.ForestHParams 设 置 随机 森林 的 参数 ， 例 如 多 少 棵 
树 、 节 点 数目 的 上 限 、 特 征 和 类 别 的 数目 ， 等 等 。 


iris = tf.contrib.learn.datasets.load_iris() 
data = iris.data.astype(np.float32) 

target = iris.target.astype(np.float32) 
classifier.fit(x=data, y=target, steps=100) 


然后 直接 传 进 TensorForestEstimator 里 初始 化 随机 森林 Estimator ， 接 
下 来 ， 把 数据 特征 列 和 类 别 列 转换 成 float32 的 格式 ， 这 样 能 够 保证 
TensorForestEstimator 的 训练 更 快 地 拟 合 。 接 下 来 ， 可 以 直接 使 用 Scikit- 
learn 风 格 的 fit() 等 方法 。 


类 似 地 ， 我 们 也 可 以 把 这 个 初始 化 好 的 classifier 运 用 到 MNIST 图 像 数 
据 上 ， 这 里 我 们 从 官方 tutorials 模 块 里 导入 MNIST 数 据 。 


from tensorflow.examples.tutorials.mnist import input_data 


mnist = input_data.read_data_sets(FLAGS.data_dir, one_hot=False) 


一 般 在 实际 应 用 中 ， 随 机 森林 容易 过 拟 合 ， 一 种 常用 的 防止 过 拟 合 
的 方法 就 是 损失 减少 的 速度 变 慢 或 者 完全 停止 减少 的 情况 下 ， 提 前 停止 
模型 的 继续 训练 。 在 TF.Leam 里 ， 我 们 可 以 用 Monitor 模 块 达到 这 个 目 
的 。 我 们 会 在 接 下 来 的 内 容 中 仔细 讲解 它 的 各 种 用 法 ， 但 是 以 下 我 们 给 
出 一 个 常用 的 random_forest 模 块 里 自 带 的 LossMonitor 来 迅速 地 达到 我 们 
的 目的 。 我 们 设 定 每 隔 100 步 Monitor 检 查 损 失 减 少 的 速度 ， 如 果 连 续 100 
次 迭代 仍然 没有 看 见 损失 的 减少 ，Monitor 会 让 整个 模型 训练 停止 ， 这 样 
在 实际 应 用 中 是 非常 有 效 的 。 


from tensorflow.contrib.learn.python.learn.estimators import random forest 


early stopping rounds = 100 


check_every_n_steps = 100 
monitor = random_forest.LossMonitor(early_ stopping rounds, 
check_every_n_steps) 
classifier.fit(x=mnist.train.images, y=mnist.train.labels, batch_size=1000, 
monitors=[monitor]) 
results = estimator.evaluate(x=mnist.test.images, y=mnist.test.labels, 


batch_size=1000) 


10.3.3 ”K 均 值 聚 类 

K 均 值 聚 类 是 非常 常见 的 一 种 聚 类 方法 ， 它 的 核心 是 把 多 维 空间 里 的 
每 个 点 划分 到 K 个 聚 类 中 ， 使 得 每 个 点 都 属于 离 它 最 近 的 均值 对 应 的 聚 
类 。TF.Learmn 里 也 包含 了 K 均 值 聚 类 的 Estimator， 我 们 来 看 一 个 简单 的 例 
Fo 


import numpy as np 


def make_random_centers(num_centers, num_dims): 
return np.round(np.random.rand(num_centers, 


num_dims).astype(np.float32) * 500) 


def make_random_points(centers, num points, max_offset=20): 
num_centers, num_dims = centers.shape 
assignments = np.random.choice(num_centers, num_points) 
offsets = np.round(np.random.randn(num_points, 
num_dims).astype(np.float32) * max_offset) 
return (centers[assignments] + offsets, 
assignments, 


np.add.reduce(offsets * offsets, 1)) 


LA EA A A BX E A AB NumPy fil 35 be eid S tik BE SE BY — 2B SUE , 
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num_centers 个 中 心 点 ，make_random_points 函 数 根据 所 生成 的 聚 类 中 心 点 
随便 生成 hum_points 个 点 。 我 们 生成 二 维 的 10000 个 点 ， 以 及 6 个 随机 的 聚 
pS 中 心 点 。 


num_centers = 6 


num_dims = 2 
num_points = 10000 
true_centers = make_random_centers(num_centers, num_dims) 


points, _, scores = make_random_points(true_centers, num_points) 


接着 ， 可 以 调用 factorization 模 块 里 KMeans 里 的 一 些 初 始 化 聚 类 的 方 
法 ， 例 如 随机 初始 化 RANDOM _INIT， 然 后 传 入 RunConfig 及 聚 类 中 心 数 
来 初始 化 KMeans 的 Estimator 对 象 ， 最 后 就 可 以 像 其 他 Estimator 一 样 使 用 
Scikit-learn 风 格 的 fit0 和 predict0)， 读 者 可 以 通过 KMeans 的 clusters0 国 数 来 
看 训练 数据 集 每 个 点 的 聚 类 分 布 。 


from tensorflow.contrib.factorization.python.ops import kmeans as kmeans_ops 
from tensorflow. contrib. factorization.python.ops.kmeans import \ 
KMeansClustering as KMeans 
kmeans = KMeans(num_centers=num_centers, 
initial_clusters=kmeans_ops.RANDOM_INIT, 
use_mini_batch=False, 
config=RunConfig(tf_random_seed=14) , 
random_seed=12) 
kmeans.fit(x=points, steps=10, batch _size=8) 


clusters = kmeans.clusters() 


kmeans.predict(points, batch_size=128) 
kmeans.score(points, batch _size=128) 


kmeans.transform(points, batch_size=128) 


值得 注意 的 是 ，KMeans 的 Estimator 有 多 个 经 常用 到 的 方法 ， 使 用 
predict() 预 测 新 的 数据 点 的 聚 类 ， 使 用 score() 预 测 每 个 点 和 它 最 近 的 聚 类 
的 距离 的 总 和 ， 以 及 用 transform() 计 算 每 个 点 和 模型 判断 出 来 的 聚 类 中 心 
的 距离 。 


10.3.4 ”支持 向 量 机 


支持 向 量 机 也 是 在 机 器 学 习 应 用 中 经 常用 到 的 一 类 算法 ， 它 包括 使 
用 各 种 不 同 的 kernel 或 者 不 同 的 距离 方程 ， 针 对 不 同 特征 的 数据 建立 不 同 
的 线性 及 非 线 性 的 模型 。 它 们 有 一 个 共同 的 特性 就 是 能 够 同时 最 小 化 经 
验 误 差 与 最 大 化 几何 边缘 区 ， 所 以 也 被 称 为 最 大 边缘 区 分 类 器 。 在 文本 
及 图 像 分 类 等 领域 得 到 广泛 的 使 用 。TF.Leam 里 面 的 SVM Estimator 提 供 
了 非常 简单 易 用 的 API 来 建立 支持 向 量 机 模型 。 


我 们 先 定义 input_fn() 建 立 一 个 有 着 两 个 数据 特征 列 、 一 个 ID 列 和 一 
个 标识 列 的 模拟 数据 ， 然 后 使 用 contrib.layers 里 面 的 FeatureColumn API 将 
featurel1 和 feature2 转 换 为 方便 和 Estimator 一 起 使 用 的 FeatureColumn (我 们 
将 在 第 11 章 中 详细 介绍 这 个 功能 ) 。 


def input_fn(): 
return { 
"example id': tf.constant(['1', '2', '3']), 
"feature1': tf.constant([[@.0], [1.0], [3.0]]), 
‘feature2': tf.constant([[1.0], [-1.2], [1.0]]), 
}, tf.constant([[1], [@], [1]]) 


featurel = tf.contrib.layers.real_valued_column('featurel1' ) 


feature2 = tf.contrib.layers.real_valued_column('feature2' ) 


然后 就 可 以 将 这 些 特征 列 及 ID 列 传 入 SVM 来 初始 化 这 个 支持 向 量 
机 ， 许 多 参数 是 调节 的 ， 例 如 在 11_regularization 和 1]2_regularization 中 加 入 
一 些 正规 化 来 防止 过 度 拟 合 之 类 的 问题 ， 和 我 们 之 前 在 随机 和 森林 那 一 节 
简单 提 到 过 的 问题 相似 ， 许 多 机 器 学 习 算 法 在 特征 列 过 多 而 例子 不 多 的 
情况 下 很 容易 发 生 这 样 的 情况 。 


svm_classifier = tf.contrib.learn.SVM(feature_columns=[feature1, feature2], 
example_id_column='example_id', 
11_regularization=0.0, 


12_regularization=@.@) 


接 下 来 就 可 以 使 用 熟悉 的 fit()、evaluate()、predict(0) 之 类 和 其 他 
Estimator 共 用 的 方法 了 。 


svm_classifier.fit(input_fn=input_fn, steps=30) 
metrics = svm_classifier.evaluate(input_fn=input_fn, steps=1) 
loss = metrics['loss' ] 


accuracy = metrics['accuracy' ] 


10.4 DataFrame 


TF.Learn 还 包括 了 一 个 单独 的 DataFrame 模 块 ， 类 似 于 Pandas、Spark 
或 者 R 编 程 语言 里 面 的 DataFrame， 它 提供 了 TF.Learn 所 需 的 读 入 数据 的 连 
代 ， 包 括 读 入 各 种 数据 类 型 Fl 如 pandas.DataFrame 、 


tensorflow.Example、NumPy， 等 等 。 它 包括 了 FeedingQueueRunner 等 功能 
来 对 数据 进行 分 批 读 入 ， 然 后 存在 一 个 Queue 里 ， 以 便 Estimator 很 容易 地 
取 过 去 用 于 模型 的 训练 。 简 单 来 说 ，FeedingQueueRunner 在 Estimator 训 | 练 
时 同时 进行 了 更 多 数据 的 分 批 读 入 ， 这 种 多 线程 的 方式 使 Estimator 的 训 
练 更 有 效 ， 也 使 TF.Learn 的 扩展 性 更 强 。 

以 NumPy 为 例 ， 假 设 我 们 用 NumPy 的 eye0 建 了 一 个 简单 的 对 角 矩 
阵 ， 然 后 就 可 以 直接 使 用 TensorFlowDataFrame.from_numpy0O 将 这 个 
NumPy 和 矩阵 转换 为 TensorFlow 的 DataFrameo 


import tensorflow.contrib.learn.python.learn.dataframe.tensorflow_dataframe 
as df 
x = np.eye(2@) 


tensorflow_df = df.TensorFlowDataFrame.from_numpy(x, batch_size =10) 


类 似 地 ， 我 们 也 可 以 直接 像 Pandas 一 样 读 入 各 种 文件 类 型 ， 这 里 我 们 
以 csv 文 件 为 例 。 


pandas df = pd.read_csv(data_path) 
tensorflow df = df.TensorFlowDataFrame.from_csv([data_path],enqueue_size=20, 
batch_size=10, shuffle=False, 


default_values=default_values) 


当 使 用 TensorFlowDataFrame 读 入 使 用 的 文件 或 者 数据 类 型 之 后 ， 就 
可 以 使 用 run0 制 造 一 个 数据 批量 (batch) 的 生成 器 ， 也 就 是 在 Python 里 经 
常用 yield 生 成 的 generator， 这 个 生成 器 维持 着 数据 列 名 和 数据 值 的 字典 
mapping。 可 以 调节 number_batches 来 选择 生成 的 batch 的 数量 ， 也 可 以 选 
择 性 地 使 用 自己 的 graph 和 session， 这 样 数据 的 batch 会 被 存在 对 应 session 
的 coordinator 里 ， 以 便 之 后 更 方便 地 获取 。 


tensorflow_df.run(num_batches=10,graph=graph,session=sess) 


我 们 也 可 以 使 用 batch0 重 新 改变 每 个 batch 的 大 小 ， 也 可 以 选择 将 数 
据 洗 一 遍 来 打 乱 顺序 ， 很 多 应 用 都 通过 这 种 方式 增加 数据 的 随机 性 。 


tensorflow_df.batch(batch_size=10,shuffle=true,num_threads=3) 


还 有 许多 实用 的 函数 ， 例 如 用 split0 将 DataFrame 分 成 多 个 
DataFrame， 用 select_rows() 选 择 具体 某 行 数据 ， 等 等 。 这 里 我 们 就 不 多 介 


绍 了 。DataFrame 将 会 被 主要 用 在 Estimator 里 ， 这 样 用 户 就 可 以 把 精力 放 
在 数据 的 供给 ， 而 不 用 担心 数据 的 数据 类 型 和 文件 类 型 。 这 一 模块 以 后 
的 变化 将 会 很 大 ， 请 读者 参考 最 新 的 官方 文档 和 代码 。 


10.5 ”监督 器 Monitors 


训练 模型 时 ， 没 有 程序 日 志 的 话 整 个 过 程 就 像 是 个 黑匣子 ， 我 们 很 
难 知道 模型 的 进展 及 发 展 方向 ， 例 如 模型 在 进行 各 种 优化 ， 使 用 SGD 做 
优化 时 ， 我 们 无 法 看 到 模型 是 否 在 拟 合 及 拟 合 的 速度 。 

当然 ， 用 户 可 以 把 训练 的 过 程 分 为 几 个 部 分 ， 然 后 在 fit(0) 和 迭代 时 时 不 
时 地 打印 出 一 些 有 用 的 信息 ， 但 是 这 样 的 程序 往往 会 很 慢 。 这 时 ， 
TF.Leam 里 自 带 的 Monitor 就 派 上 用 场 了 ， 它 提供 各 种 logging 及 监督 控制 
训练 的 过 程 ， 这 样 用 户 就 能 更 清楚 地 知道 模型 是 否 在 进行 有 效 的 训练 。 
在 之 前 的 章节 中 我 们 简单 提 到 过 ， 接 下 来 将 给 出 详细 的 例子 来 分 析 
Monitors 的 使 用 方法 。 

TensorFlow 有 5 个 等 级 的 log， 以 严重 性 最 小 到 最 大 排列 ， 它 们 是 
DEBUG、INFO、WARN、ERROR， 以 及 FATAL。 当 用 户 选 择 好 log 的 等 
级 之 后 ， 只 有 那个 等 级 和 更 严重 等 级 的 log 会 被 打印 出 来 。 举 例 来 说 ， 如 
果 等 级 设置 为 ERROR， 那 么 你 会 看 到 ERROR 和 FATAL 等 级 的 log; WR 
等 级 设置 为 DEBUG ， 那 么 所 有 等 级 的 log 都 会 打印 出 来 。TensorFlow 的 默 
认 log 等 级 是 WARN， 所 以 如 果 想 在 模型 训练 时 看 到 log， 需 要 用 下 面 这 行 
代码 把 等 级 改 到 INFO。 


tf.logging.set_verbosity(tf.logging. INFO) 


改 了 等 级 之 后 ， 你 会 看 到 类 似 以 下 的 log。 注 意 这 些 是 由 一 个 默认 的 
Monitor 提 供 的 ， 每 100 步 会 打印 出 一 些 损失 值 信息 。 


INFO:tensorflow:Training steps [6,266) 
INFO:tensorflow:global step/sec: 6 
INFO:tensorflow:Step 1: loss 1:6 = 2.34635 


INFO:tensorflow:training step 100, loss = 0.18227 (0.001 sec/batch). 
INFO: tensorflow:Step 101: loss 1:6 = 0.191003 

INFO: tensorflow:Step 200: loss 1:0 = @.0835024 
INFO:tensorflow:training step 200, loss = 0.080932 (0.002 sec/batch). 


TELeam 提 供 几 个 方便 使 用 的 高 阶 Monitor 类 ， 例 如 用 CaptureVariable 
将 一 个 指定 的 变量 的 值 存储 到 一 个 Collection 里 ， 用 PrintTensor 打 印 Tensor 
的 值 ， 用 SummarySaver 存 储 Summary 所 需要 的 协议 缓冲 (Protocol 
Buffer) ，ValidationMonitor 在 训练 时 打印 多 个 评估 Metrics， 以 及 监督 模 
型 的 训练 以 便 提前 停止 训练 防止 模型 的 过 度 拟 合 。 这 些 不 同 的 Monitor 都 
会 在 每 隔 N 步 时 执行 。 

接 下 来 ， 我 们 将 详细 地 讲解 怎样 使 用 Monitor ， 主 要 以 
ValidationMonitor 作 为 例子 。 首 先 ， 假 设 手 头 有 CSV 格 式 的 iris 数 据 ， 我 们 
可 以 使 用 TF.Learn 自 带 的 learn.datasets.base.load_csv0 读 入 这 些 CSV 数 据 文 
件 。 


import numpy as np 


import tensorflow as tf 


iris train = tf.contrib.learn.datasets.base.load_ csv( 
filename="iris training.csv", target_dtype=np.int) 
iris_test = tf.contrib.learn.datasets.base.load_csv( 


filename="iris test.csv", target_dtype=np.int) 


接着 ， 定 义 一 个 评估 模型 的 metrics 字 典 ， 这 里 使 用 contrib.metrics 模 
块 里 面 的 streaming_accuracy、streaming_precision， 以 及 streaming_recall， 


对 模型 的 准确 度 、 精 确 度 ， 以 及 召回 率 进 行 评 估 。 


validation_metrics = {"accuracy": tf.contrib.metrics.streaming accuracy, 
"precision": tf.contrib.metrics.streaming precision, 


"recall": tf.contrib.metrics.streaming recall} 


然后 用 定义 好 的 validation_metrics 建 立 一 个 validation_monitor， 这 里 
需要 提供 用 来 评估 的 数据 及 目标 ， 提 供 every_n_steps 来 指示 每 50 步 以 实行 
一 次 这 个 ValidationMonitor ， 把 之 前 定义 好 的 validation_metrics 传 入 


~ 


metrics， 用 early_stopping_metric 选 择 用 来 提前 停止 所 需要 监测 的 metric， 
early_stopping_metric_minimize=True 表 明 我 们 需要 最 小 化 之 前 提供 的 
early_stopping_metric。 最 后 ， 用 early_stopping_rounds 表 明 如 果 超 过 200 步 
训练 损失 仍然 不 减少 ，ValidationMonitor 会 停止 Estimator 的 训练 。 


validation_monitor = tf.contrib.learn.monitors.ValidationMonitor( 
iris test.data, 
iris test.target, 
every_n_steps=56， 
metrics=validation_metrics, 
early stopping metric="loss", 
early stopping metric_minimize=True, 


early stopping rounds=20@0) 


紧 接着 ， 我 们 建立 一 个 深度 神经 网 络 分 类 器 DNNClassifier， 它 有 三 
层 神 经 网 络 ， 每 一 层 分 别 有 10、15 和 10 个 隐藏 单元 。 我 们 在 分 类 器 进行 
fitO 时 来 指定 我 们 定义 好 的 监督 器 validation_monitor， 注 意 ， 也 可 以 指定 
多 个 监督 器 来 实现 不 同 功 能 的 监督 ， 例如 
[validation_monitor,debug_monitor,print_monitor]. 


classifier = tf.contrib.learn.DNNClassifier(feature_columns=feature_columns, 
hidden_units=[10, 15, 10], 
n_classes=3, 
model_dir="/iris_model_dir", 


config=tf.contrib.learn.RunConfig(save_checkpoints_secs=2)) 


classifier.fit(x=iris_train.data,y=iris train.target, steps=1000, 


monitors=[validation_monitor ]) 


接 下 来 ， 可 以 使 用 我 们 熟悉 的 evaluate0) 或 者 predictO 用 新 的 数据 评估 
模型 的 准确 度 。 


accuracy_score = classifier.evaluate(x=iris test.data, 


y=iris_test.target)["accuracy" ] 


new_samples = np.arra eR (oes 4s 7s OMS ae ODS oe » dtype=float 
_sampl p y([[5.2,3 2.2], [2.8,3.2 3.3]], dtype=float) 


y = classifier.predict(new_samples) 


我 们 将 会 得 到 类 似 以 下 的 log， 可 以 观察 到 模型 在 750 步 时 被 终止 了 ， 
因为 损失 值 没有 继续 减少 。 

INFO:tensorflow:Validation (step 950): recall = 1.0,accuracy = 
0.966667,¢] 


obal_step = 932, precision = 1.0, loss = 0@.0608345 
INFO:tensorflow:Stopping. Best step: 750 with loss = 0.0581324. 


虽然 ValidationMonitor 提 供 了 很 多 信息 和 功能 ， 但 是 当 训 练 步 数 很 大 
时 ， 我 们 很 难 观察 模型 的 准确 率 到 底 是 怎么 变化 的 。 值 得 庆 笠 的 是 ， 
TF.Learn 生 成 的 log 及 checkpoint 的 文件 是 能 够 直接 读 入 TensorBoard 里 进行 
可 视 化 的 。 如 果 在 命令 行 里 执行 以 下 几 行 ， 就 会 在 给 出 的 地 址 里 看 到 
TensorBoard 对 整个 模型 训练 可 视 化 ， 如 图 10-1 所 示 。 


$ tensorboard --logdir=/iris model dir/ 
Starting TensorBoard 22 on port 6666 
(You can navigate to http://0.0.0.0:6006) 
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图 10-1 TensorBoard 对 模型 训练 的 可 视 化 
图 片 来 源 于 tensorflow.org 


11 TF.Contrib 的 其 他 组 件 


TF.Contrib 是 TensorFlow 里 很 重要 的 一 个 部 分 ， 很 大 一 部 分 开源 社区 
的 贡献 都 被 集中 在 这 里 ， 特 别 是 一 些 比较 新 的 功能 ， 由 于 都 是 一 些 刚 贡 
献 的 功能 ， 谷 歌会 将 这 些 代码 暂时 放 在 这 里 ， 由 谷歌 内 部 及 外 部 的 用 户 
一 起 测试 ， 根 据 反 馈 意 见 改 进 性 能 和 改善 API 的 友好 度 ， 等 它们 的 API 都 
比较 稳定 时 ， 会 被 移 到 TensorFlow 的 核心 模块 。 


这 个 模块 里 提供 了 机 器 学 习 需 要 的 大 部 分 功能 ， 包 括 统计 分 布 、 机 
器 学 习 层 、 优 化 函数 、 指 标 ， 等 等 。 本 章 将 简单 介绍 其 中 的 一 些 功 能 让 
大 家 了 解 TensorFlow 的 涵盖 范围 和 感受 到 社区 积极 地 参与 和 贡献 度 。 注 意 
这 部 分 功能 在 未 来 会 不 断 变 动 和 改进 ， 如 果 是 写生 产 代 码 的 话 ， 请 以 最 
新 的 官方 教程 和 API 指 南 作为 最 权威 的 参考 。 


11.1 统计 分 布 


在 TF.contrib.distributions 模 块 里 有 许多 的 统计 分 布 ， 例 如 Bernoulli、 
Beta, Binomial, Gamma, Exponential、Normal、Poisson、Uniform ， 等 
等 。 这 些 统计 分 布 大 多 数 都 是 统计 研究 和 应 用 中 经 常用 到 的 ， 也 是 各 种 
统计 及 机 器 学 习 模 型 的 基石 ， 许 多 的 概率 模型 和 图 形 模型 (例如 Bayesian 
模型 ) 都 非常 依赖 这 些 统计 分 布 。 


每 个 不 同 的 统计 分 布 有 着 不 同 的 特征 和 函数 ， 但 是 它们 都 是 从 同样 
的 子 类 Distribution 扩 展开 来 的 ，Distribution 是 建立 和 组 织 随机 变量 和 统计 
分 布 的 一 个 最 基础 的 类 ， 它 有 着 许多 有 用 的 属性 及 类 函数 ， 例 如 用 
is_continuous 表 明 这 个 随机 变量 分 布 是 不 是 连续 的 ， 用 allow_nan_stats 表 
示 这 个 分 布 是 否 接受 nan 的 数据 ， 用 sample0 从 这 个 分 布 里 取样 ， 用 prob0) 
计算 随机 变量 密度 图 数 ， 用 cdf0 求 累积 分 布 图 数 ， 以 及 用 entropy0)、 
mean()、std()、variance() 得 到 统计 分 布 的 平均 值 和 方差 之 类 的 特征 。 如 果 
想 贡 献 自 己 的 统计 分 布 类 ， 需 要 实现 一 些 对 应 以 上 的 方程 ， 例 如 
_mean(0)、_std0 和 _variance0 ， 也 需要 实现 _is_continuous 之 类 表明 这 个 变 


量 分 布 的 属性 。 


我 们 接 下 来 以 实现 好 的 Gamma 分 布 为 例 来 说 明 这 个 模块 的 大 概 使 用 
方法 。 首 先 ， 从 contrib.distributions 里 导入 Gamma 分 布 ， 然 后 初始 化 alpha 
和 beta 的 tf.constant， 这 些 constant 被 用 于 建立 Gamma 分 布 ， 我 们 可 以 通过 
batch_shape().eval0 得 到 每 个 样本 的 形状 ， 这 里 例子 的 样本 形状 shapel 是 
(5,) ， 我 们 也 可 以 使 用 getbatch_shape0O 得 到 样本 形状 ， 但 是 是 以 
tf.TensorShape 的 类 出 现 的 ， 这 个 例子 里 shape2 是 tf.TensorShape(5)， 两 种 
方法 各 有 所 长 ， 需 要 依据 具体 应 用 的 需求 来 使 用 。 


from tensorflow.contrib.distributions import Gamma 
import tensorflow as tf 

alpha = tf.constant([3.6] * 5) 

beta = tf.constant(11.6) 

gamma = Gamma(alpha=alpha, beta=beta) 

shape1 = gamma.batch_shape().eval() 

shape2 = gamma.get_batch_shape() 


然后 ， 可 以 用 log_pdfO0 国 数 取 对 应 的 一 些 值 的 log 转 换 后 的 概率 密度 
函数 ， 我 们 把 6 个 值 放 在 numpy.array 里 ， 然 后 得 到 相应 的 log 概 率 密度 函数 
值 。 


x = np.array([2.5, 2.5, 4.0, 0.1, 1.0, 2.0], dtype=np.float32) 
log pdf = gamma.log pdf(x) 


也 可 以 建立 多 维 的 Gamma 分 布 ， 和 一 维 的 类 似 ， 只 需要 传 入 多 维 的 
alpha 和 beta 人 参数 就 可 以 建立 多 维 的 Gamma 分 布 。 同 样 ， 我 们 可 以 对 多 维 
的 x 取 得 相应 的 log 概 率 密 度 阔 数值 。 


batch_size = 6 
alpha = tf.constant([[2.0, 4.0]] * batch_size) 
beta = tf.constant([[3.0, 4.0]] * batch_size) 


x = np.array([[2.5, 2.5, 4.0, 0.1, 1.0, 2.0]], dtype=np.float32).T 
gamma = Gamma(alpha=alpha, beta=beta) 
log pdf = gamma.log pdf(x) 


11.2 Layer 模块 


Contrib.layer 包 含 了 机 器 学 习 算 法 所 需 的 各 种 各 样 的 成 份 和 部 件 ， 例 
如 卷 积 层 、 批 标准 化 层 、 机 器 学 习 指标 、 优 化 函数 、 初 始 器 、 特 征 列 ， 
等 等 。 有 了 这 些 基 础 的 建设 部 件 ， 我 们 可 以 高 效 地 建立 复杂 的 机 器 学 习 
及 机 器 学 习 系 统 。 本 章 将 介绍 这 个 模块 里 一 些 主要 的 部 件 ， 来 帮助 理解 
TensorFlow 的 各 种 可 能 性 及 灵活 性 。 


11.2.1 ”机 器 学 习 层 


contrib.layers 里 含有 许多 常用 的 深度 学 习 及 机 器 学 习 的 层 ， 例 如 卷 积 
层 、pooling 层 、 批 标准 化 等 ， 这 些 都 是 各 种 模型 必 不 可 少 的 部 分 ， 也 是 
机 器 学 习 研究 领域 最 活跃 的 一 部 分 。 


深度 学 习 和 计算 机 视觉 里 经 常用 到 的 二 维 的 平均 闻 是 avg_pool2d。 我 
们 用 np.random.uniform 建 立 宽 和 高 都 是 3 的 几 张 假 图 片 ， 读 者 可 以 通过 
contrib.layers.avg_pool2d0 对 图 片 快 速 地 建立 3x3 的 二 维 平均 了 地， 这 里 
output 的 形状 是 [5,1,1,3]， 因 为 我 们 对 每 个 3x3 的 区 域 取 计算 平均 值 。 


height, width = 3, 3 
images = np.random.uniform(size=(5, height, width, 3)) 


output = tf.contrib.layers.avg pool2d(images, [3, 3]) 


用 类 似 的 方法 建立 卷 积 层 ， 这 里 使 用 同样 的 图 片 和 矩阵， 然后 用 
contrib.layers.convolution2d0) 建 立 一 个 有 32 个 3x3 过 滤器 的 卷 积 层 ， 也 可 以 
改动 stride、padding、activation_fn 等 参数 建立 不 同 架 构 的 卷 积 层 ， 使 用 不 
同 的 卷 积 层 激活 函数 。 


output = tf.contrib.layers.convolution2d(images, num_outputs=32, 


kernel_size=[3, 3]) 


值得 注意 的 是 ，contrib.layers 会 自动 建立 op 的 名 字 ， 例 如 
output.op.name 的 值 是 'ConwRelu ， 因 为 我 们 使 用 了 Conv 层 及 使 用 了 ReLU 
的 激活 函数 ， 这 些 layer 有 自己 对 应 的 op 名 字 ， 然 后 会 在 每 个 op 空间 存储 
对 应 的 变量 ， 可 以 通过 contrib.framework.get_variables_by_name() 得 到 对 应 
的 op 空间 变量 的 值 。 例 如 ， 可 以 用 get_variables_by_name 得 到 我 们 建立 的 


卷 积 层 的 权重 ， 这 里 权重 的 形状 ， 也 就 是 weights_shape 的 值 ， 是 
[3,3,4,32]o 


weights = tf.contrib.framework.get_variables by _name('weights')[0] 


weights shape = weights.get_shape().as_list() 


接 下 来 我 们 看 看 怎么 将 卷 积 层 layers.convolution2d0 和 批 标准 化 层 
layers.batch_norm(O) 结 合 使 用 ， 我 们 先 建立 一 些 图 片 的 矩阵 。 


images = tf.random_uniform((5,height,width,32),seed=1) 


接着 ， 使 用 contrib.framework 里 面 的 arg_scope 减 少 代码 的 重复 使 用 ， 
我 们 将 layers.convolution2d 及 一 些 即将 传 入 的 参数 放 入 arg_scope 中 ， 这 些 
参数 通常 是 接 下 来 会 被 重复 使 用 的 ， 把 它们 放 在 arg_scope 里 就 可 以 避免 
重复 在 多 个 地 方 传 入 ， 这 里 需要 用 到 的 参数 是 normalizer fn 和 
normalizer_ params， 也 就 是 需要 用 到 的 标准 化 方程 及 它 所 需要 的 参数 ， 一 
但 在 arg_scope 里 设置 了 这 些 ， 接 下 来 用 到 convolution2d0 时 就 不 用 重复 传 


入 normalizer_fn 和 normalizer_params 这 两 个 参数 了 。 


with tf.contrib.framework.arg scope( 
[tf.contrib.layers.convolution2d], 
normalizer_fn=tf.contrib.layers.batch_norm, 
normalizer_params={'decay': @.9}): 

net = tf.contrib.layers.convolution2d(images, 32, [3, 3]) 


net = tf.contrib.layers.convolution2d(net, 32, [3, 3]) 


可 以 看 到 ，TensorFlow 自 动 帮 有 我 们 建立 好 了 默认 的 一 些 层 的 名 字 。 以 
上 的 例子 里 , 我 们 可 以 通 过 
len(tf.contrib.framework.get_variables('Conv/BatchNorm'")) 得 到 第 一 
Conv/BatchNorm 层 的 长 度 。 


再 来 看 一 个 完全 连接 的 神经 网 络 层 fully_connected() 的 例子 。 首 先 ， 
建立 一 些 输入 的 矩阵， 用 fully_connected0 建 立 一 个 输出 7 个 神经 单元 的 神 
经 网 络 层 。 


>E 


height, width = 3, 3 
inputs = tf.random_uniform((5, height * width * 3), seed=1) 
with tf.name_scope('fe'): 


fc = tf.contrib.layers.fully_connected(inputs, 7, 


outputs_collections='‘outputs', 
scope='fc') 
output_collected = tf.get_collection('outputs')[0] 
self.assertEquals(output_collected.alias, 'fe/fc') 


值得 注意 的 一 些小 细节 是 ， 我 们 利用 tt.name_scope 将 截 下 来 的 运算 放 
进 一 个 name_scope 里 ， 这 样 以 后 就 可 以 更 简单 地 找到 我 们 想 要 的 某 个 层 
的 值 ， 我 们 在 fully_connected0 里 传 入 一 个 scope， 然 后 就 可 以 通过 
“fe/fc”， 也 就 是 这 个 层 的 别 号 得 到 这 个 层 的 一 些 信息 。 我 们 通过 传 入 的 
outputs_collections， 可 以 直接 得 到 这 个 层 的 输出 。 

在 contrib.layers 里 有 许多 特别 方便 使 用 的 方法 ， 例 如 ， 可 以 通过 
repeat) 重复 使 用 同样 的 参数 重复 建立 某 个 层 ， 例 如 y = 
repeat(x,3,conv2d,64,[3,3],scope='conv1") 是 和 以 下 代码 等 同 的 。 


x 


= conv2d(x, 64, [3, 3], scope='convi/convi_1') 


x 


= conv2d(x, 64, [3, 3], scope="conv1/convi_2') 


= conv2d(x, 64, [3, 3], scope='convi/convi_3') 


< 


可 以 使 用 stack0 来 使 用 不 同 的 参数 建立 多 个 fully_connectedO0 层 ， 我 们 
可 以 建立 一 个 三 层 的 完全 连接 的 神经 网 络 ， 每 层 的 单元 数 分 别 为 32、64 
和 128。 

y = stack(x,fully_connected,[32,64, 128],scope='fc’) 


以 上 代码 等 同 于 : 
x = fully_connected(x, 32, scope='fc/fc 1') 


x = fully_connected(x, 64, scope='fc/fc_2') 
y = fully_connected(x, 128, scope='fc/fc_3') 


注意 ，stack 会 帮 你 建立 一 个 新 的 scope， 通 过 在 scope 里 附加 一 个 增 
量 ， 例 如 在 “fe”* 的 基础 上 加 上 “fc_1”、“fc_2” 等 。 之 前 提 到 的 repeat() 也 会 
使 用 类 似 的 机 制 建立 新 的 scope。 

我 们 只 简单 介绍 一 些 在 深度 学 习 中 经 常 使 用 的 层 ， 如 果 想 了 解 更 
多 、 更 复杂 的 层 ， 例 如 conv2dtranspose 、 conv2d_in_plane 、 
separable_conv2d 等 ， 可 以 参考 官方 文档 。 


11.2.2 ”损失 函数 


Tf.contrib.losses 模 块 里 包含 了 各 种 常用 的 损失 函数 ， 适 用 于 二 类 分 
类 、 多 类 分 类 ， 以 及 回归 模型 等 各 式 各 样 的 机 器 学 习 算法 。 接 下 来 ， 我 
们 将 举例 说 明 它 们 的 使 用 方法 。 

我 们 先 以 绝对 差 值 举例 说 明 ， 首 先 用 tf.constant 建 立 一 些 predictions 和 
targets 的 数列 。 注 意 ， 它 们 必须 是 同样 的 shape， 然 后 可 以 选择 性 地 建立 
权重 ， 因 为 在 许多 实际 应 用 中 ， 每 个 预测 值 的 权重 也 是 特别 关键 的 。 


predictions = tf.constant([4, 8, 12, 8, 1, 3], shape=(2, 3)) 
targets = tf.constant([1, 9, 2, -5, -2, 6], shape=(2, 3)) 
weight = tf.constant([1.2, 0.0], shape=[2, ]) 


接着 ， 可 以 使 用 losses.absolute_difference() 计 算 这 组 预测 的 损失 值 ， 
从 而 在 之 后 的 建 模 中 起 到 引导 性 的 作用 。 


loss = tf.contrib.losses.absolute_difference(predictions,targets,weight) 


接 下 来 ， 来 看 一 个 计算 softmax 交 叉 炉 的 例子 ， 这 种 方法 多 适用 于 多 
类 分 类 的 机 器 学 习 模型 。 同 样 地 ， 我 们 先 建立 predictions 和 1labels， 与 之 前 
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值 。 注 意 ， 需 要 像 其 他 TensorFlow 的 应 用 一 样 使 用 loss.eval() 运 行 得 到 它 
的 值 。 可 以 从 loss.op.name 得 到 TensorFlow 自 动 赋值 的 op 的 名 字 ， 这 个 情 
况 下 它 是 'softmax_cross_entropy_loss/value'"。 其 他 的 损失 遂 数 也 是 使 用 这 
样 的 命名 习俗 。 


predictions = tf.constant([[10.0,0.0,0.0], [@.0,10.0,0.0], [0.0,0.0,10.0]]) 
labels = tf.constant([[1, 0, 0], [@, 1, @], [@, 8, 1]]) 


loss = tf.contrib.losses.softmax_cross_entropy(predictions, labels) 
loss.eval() 


loss.op.name 
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数 里 有 许多 的 参数 可 以 使 用 。 例 如 ， 可 以 使 用 softmax_cross_entropy() 里 
面 的 label_smoothing 将 所 有 的 标识 进行 平滑 ， 从 而 使 在 某 些 应 用 中 计算 出 
来 的 softmax 交 叉 焙 更 具有 实际 应 用 的 代表 性 ， 使 用 方法 如 下 。 


logits = tf.constant([[100.0, -100.0, -100.0]]) 
labels = tf.constant([[1, 8, 868]]) 
label_smoothing = 0.1 


loss = tf.contrib.losses.softmax_cross_entropy(logits, labels, 


label_smoothing=label_smoothing) 


许多 应 用 大 部 分 标识 的 分 布 都 比较 稀疏 ， 可 以 使 用 sparse_softmax 
_Cross_entropy()， 这 样 计算 起 来 会 更 有 效率 。 


logits = tf.constant([[16.6，6.6，6.6]，6.6，16.6，6.6]，[86.6，6.6，16.6]]) 
labels = tf.constant([[6]，[1]，[2]]，dtype=tf.int64) 


loss = tf.contrib.losses.sparse softmax_cross entropy(logits, labels) 


11.2.3 ”特征 列 Feature Column 


在 很 多 数据 科学 和 机 器 学 习 的 应 用 中 ， 大 家 都 习惯 以 表格 的 形式 存 
储 和 处 理 数 据 ， 然 后 将 数据 输入 机 器 学 习 模型 中 。 处 理 数据 的 方式 多 种 
多 样 ， 例 如 Python 里 有 大 家 熟悉 的 Pandas 包 。 数 据 从 各 种 数据 源 得 来 ， 经 
过 各 种 方式 的 清理 、 和 筛选、 合并 ， 以 及 特征 工程 ， 然 后 进行 模型 的 建 
立 。 在 TensorFlow 里 怎样 更 好 地 进行 我 们 的 特征 工程 和 建 模 的 工作 呢 ? 


TF.contrib.layers 里 有 许多 高 阶 的 特征 列 (Feature Column) API， 可 
以 让 大 家 的 特征 工程 更 有 效率 ， 然 后 紧密 地 和 TF.Learn 的 API 结 合 使 用 ， 


建立 最 适合 自己 数据 的 模型 。 接 下 来 ， 我 们 将 介绍 如 何 使 用 这 些 高 阶 的 
特征 列 API 及 如 何 和 TF.Learn 结 合 使 用 。 
数据 里 一 般 包 含 连续 特征 (Continuous Feature) 及 类 别 特征 

(Categorical Feature) 。 像 花 闪 的 长 度 和 宽度 这 样 连续 的 数值 特征 称 为 连 
续 特 征 ， 我 们 可 以 直接 把 它们 用 在 模型 里 。 如 果 特 征 代 表 了 类 别 ， 例 如 
性 别 、 种 族 这 样 的 不 连续 的 类 别 特征 ， 那 么 往往 需要 对 它们 进行 处 理 ， 
例如 将 它们 数值 化 ， 也 就 是 将 它们 转换 为 一 系列 的 数值 来 代表 每 个 不 同 
的 类 别 。Feature Column API 可 以 很 方便 地 将 各 种 类 型 的 特征 转换 为 想 要 
的 格式 。 


假设 读者 已 经 用 类 似 以 下 的 learn.datasets 的 API 来 读 入 数据 ， 例 如 : 


training set = learn.datasets.base.load_csv(filename=iris_training, 
target_dtype= np.int) 
test_set = learn.datasets.base.load_csv(filename=iris_ testing, 


target_dtype=np.int) 


接 下 来 就 可 以 用 layers.FeatureColumn 的 API 定 义 一 些 特征 列 ， 例 如 ， 
使 用 real_valued_column0O 定 义 连 续 的 特征 〈 如 年 龄 、 收 入 、 开 销 ， 以 及 工 
作 市 场 ) 。 


from tf.contrib import layers 

age = layers.real_valued_column("age" ) 

income = layers.real_valued_column("income" ) 
spending = layers.real_valued_column("spending" ) 


hours_of_work = layers.real_valued_column("hours_of_work") 


紧 接 着 ， 用 sparse_column_with_keysO 处 理 像 性 别 这 样 的 类 别 特征 。 


gender = layers.sparse_column_with_keys(column_name="gender", 


keys=["female", "male"]) 


注意 ， 使 用 sparse_column_with_keys() 前 ， 必 须要 知道 这 个 特征 所 有 
可 能 的 值 ， 本 例 中 ， 性 别 分 为 男性 和 女性 。 如 果 事 先 不 知道 所 有 可 能 的 
值 ， 可 以 使 用 sparse_column_with_hash_bucketO 将 特征 转换 为 特征 列 。 以 


教育 程度 这 样 的 特征 为 例 ， 由 于 对 数据 不 是 特别 熟悉 ， 无 法 事先 知道 所 
有 可 能 的 教育 程度 ， 我 们 可 以 用 哈 希 表 建 立 这 样 的 特征 。 


education = layers.sparse column with hash bucket("education", 


hash_bucket_size=10@0) 


sparse_column_with_keys()A¢sparse_column_with_hash_bucket()# BE 4} 
数据 转换 为 SparseColumn ， 然 后 可 以 直接 在 TF.Learn 里 使 用 ， 传 入 
Estimator 里 。 


有 时 ， 在 数据 科学 的 应 用 中 ， 一 些 连续 的 特征 可 能 需要 被 离散 化 ， 
从 而 形成 新 的 类 别 特征 ， 这 样 能 更 好 地 代表 特征 和 目标 分 类 类 别 之 间 的 
关系 。 例 如 年 龄 是 连续 特征 ， 分 类 的 类 别 是 职业 的 类 别 (如 经 理 、 猎 头 
F) ， 往 往 这 些 职业 的 类 别 和 年 龄 阶段 有 关 ， 而 不 是 简单 的 数值 年 龄 。 
因为 18 岁 、19 岁 、20 岁 往往 没有 明显 的 区 别 ， 所 以 有 时 会 将 这 样 的 连续 
特征 区 间 化 和 离散 化 ， 例 如 将 18 岁 人 20 岁 分 为 一 类 。 在 FeatureColumn 
API 里 ， 我 们 可 以 很 快 地 进行 这 样 的 转换 。 


age_range = layers.bucketized_column(age, boundaries=[18, 25, 30, 35, 4@, 


45, 50, 55, 60, 65]) 


在 以 上 的 例子 里 ， 使 用 bucketized_column0O 将 之 前 的 年 龄 
SparseColumn 进 行进 一 步 的 区 间 化 ， 将 年 龄 段 分 为 18 岁 一 25 安 、26 罗 一 
30 岁 、31 岁 全 35 岁 ， 等 等 。 


在 许多 应 用 里 ， 一 个 好 的 模型 不 仅 需 要 一 些 单独 的 特征 列 ， 有 时 两 
个 或 多 个 特征 之 间 的 综合 和 交互 与 目标 分 类 类 别 之 间 的 关系 更 紧密 。 有 
时 多 个 特征 之 间 是 相关 的 ， 使 用 特征 的 交互 往往 能 建立 更 有 效 的 模型 。 
例如 ， 对 年 龄 、 职 业 和 种 族 这 三 个 特征 ， 我 们 可 以 使 用 crossed_column0) 
建立 交叉 特征 列 : 


combined = layers.crossed_column([age_ range, race, occupation], 


hash_bucket_size=int(1e7) ) 


建立 好 各 式 各 样 的 特征 列 之 后 ， 我 们 可 以 直接 将 它们 传 入 不 同 的 
TF.Learn Estimator. 以 下 面 这 个 简单 的 逻辑 回归 分 类 模型 为 例 ， 我 们 可 以 
使 用 之 前 介绍 过 的 fit()、predict() 等 方法 训练 和 评估 模型 。 


classifier = tf.contrib.learn.LinearClassifier(feature_columns=[ 
gender, education, occupation, combined, age range, race, income, 


spending], model_dir=model_ dir) 


这 里 我 们 只 是 简单 地 介绍 了 一 些 比较 音 用 的 函数 ， 在 实际 应 用 中 有 
各 种 各 样 的 需求 ， 例 如 有 时 想 取 一 部 分 特征 的 加 权 求 和 作为 一 个 新 的 特 
征 列 ， 可 以 使 用 weighted_sum_from_feature_columns() 来 很 快 地 实现 。 读 
者 可 以 在 官方 文档 里 找到 更 多 需要 的 函数 。 


11.2.4 Embeddings 


GVZREREMWAY, BSitsamiy, SHRINES, 
我 们 通常 先 把 它们 转换 成 低 维 的 、 笛 密 的 实数 值 的 向 量 ， 也 通常 将 它们 
和 连续 特征 向 量 联合 起 来 ， 一 起 输入 进 神经 网 络 模型 中 进行 训练 和 优化 
损失 水 数 ， 这 些 被 统一 称 为 钥 入 向 量 (Embedding Vectors) 。 大 部 分 文本 
识别 都 是 先 将 文本 转换 成 嵌入 向 量 ， 然 后 对 它们 进行 分 析 并 用 在 模型 训 
练 中 。 

contrib.layers 模 块 里 的 embedding_column0 能 迅速 将 高 维 稀疏 的 类 别 
特征 向 量 转换 为 读者 想 要 的 维 数 的 能 入 同 量 ， 以 下 是 一 个 例子 。 


embedding columns = [ 
tf.contrib.layers.embedding column(title, dimension=8), 
tf.contrib.layers.embedding column(education, dimension=8), 
tf.contrib.layers.embedding column(gender, dimension=8), 
tf.contrib.layers.embedding column(race, dimension=8), 


tf.contrib.layers.embedding column(country, dimension=8) ] 


这 里 的 title、education、 gender, race, LARecountry he Lbs EASE 
别 特征 向 量 ， 我 们 通过 使 用 embedding_column0O， 把 它们 转换 为 低 维 数 的 
稠密 向 量 ， 从 而 更 好 地 归纳 数据 中 的 特性 ， 特 别 是 当 一 组 特征 中 的 交互 
答 阵 比较 稀 跤 ， 级 别 比 较 高 时 ， 这 种 方法 会 使 模型 更 具有 概括 性 且 更 有 
效 。 

接 下 来 ， 可 以 直接 将 它们 传 入 TF.Leam 的 Estimator 里 进行 模型 的 建 
立 、 训 练 ， 以 及 评估 。 例 如 ， 可 以 将 embedding columns 传 入 
DNNLinearCombinedClassifier 里 的 深度 神经 网 络 特征 列 里 。 


est = tf.contrib.learn.DNNLinearCombinedClassifier( 
model _dir=model _ dir, 
linear_feature_columns=wide_ columns, 
dnn_feature_columns=embedding columns, 


dnn_hidden_units=[100, 50]) 


embedding_columns() 是 contrib.layers 模 块 里 最 简单 易 用 的 一 个 ， 当 涉 
及 实际 数据 时 ， 许 多 稀 足 高 维 的 数据 里 通常 有 空 的 特征 及 无 效 的 ID， 这 
时 可 以 使 用 safe_embedding_lookup_sparse() 安 全 地 建立 其 入 向 量 。 这 里 先 
用 tf.SparseTensor 建 立 好 稀疏 的 ID 及 稀 跑 的 权重 。 


indices = [[0, @], [9 1], [@, 2], [1, ol [3, 0], [4, @], [4, 1]] 
ids = [0 1; “ly 1, 2, 0, T] 

weights = [1.0, 2.0, 1.0, 1.0, 3.0, 0.0, -0.5] 

shape = [5, 4] 


sparse_ids = tf.SparseTensor( 
tf.constant(indices, tf.int64), tf.constant(ids, tf.int64), 
tf.constant(shape, tf.int64)) 


sparse_weights = tf.SparseTensor( 
tf.constant(indices, tf.int64), tf.constant(weights, tf.float32), 
tf.constant(shape, tf.int64)) 


接 下 来 ， 建 立 人 能 入 向 量 的 权重 embedding_weights ， 这 取决 于 词汇 量 
大 小 、 同 入 向 量 维 数 ， 以 及 shard 数 量 。 然 后 ， 使 用 initializer.run() 和 eval() 
初始 化 散 入 向 量 的 权重 ， 具 体 细 节 和 参数 的 说 明 请 参考 最 新 的 官方 文 
档 。 


vocab_size=4 
embed_dim=4 
num_shards=1 
embedding weights = tf.create_partitioned_variables( 

shape=[vocab_size, embed dim], 

slicing=[num_shards, 1], 

initializer=tf.truncated_normal_initializer(mean=0.0, 

stddev=1.0 / math.sqrt(vocab_size), dtype=tf.float32) ) 
for w in embedding weights: 
w.initializer.run() 


embedding weights = [w.eval() for w in embedding weights ] 


最 后 ， 可 以 使 用 safe_embedding_lookup_sparse() 将 原来 的 特征 向 量 安 
全 地 转换 为 低 维和 稠密 的 特征 向 量 ， 这 里 使 用 eval()， 然 后 将 它们 收集 到 
一 个 tuple 里 。 


embedding lookup_result = (tf.contrib.layers.safe_embedding lookup_sparse( 


embedding weights, sparse ids, sparse_weights).eval()) 


11.3 ”性 能 分 析 器 tfprof 


TensorFlow 也 在 Contrib 模 块 里 提供 了 自己 的 性 能 分 析 器 tfprof， 可 以 
通过 它 帮 助 分 析 模 型 的 架构 及 衡量 系统 的 性 能 。 它 肖 盖 了 许多 实用 的 功 
能 ， 例 如 衡量 模型 的 参数 、 浮 点 运算 、op 执 行 时 间 、 要 求 的 存储 大 小 、 
探索 模型 的 结构 等 。 本 节 将 简单 地 介绍 一 些 功能 。 


首先 ， 通 过 以 下 命令 安装 tfprof 命 令 行 的 工具 。 

bazel build -c opt tensorflow/contrib/tfprof/... 

可 以 通过 以 下 命令 查询 帮助 文件 。 
bazel-bin/tensorflow/contrib/tfprof/tools/tfprof/tfprof help 

可 以 执行 互动 模式 ， 然 后 指定 graph_path 来 分 析 模 型 的 shape 和 参数 。 


bazel-bin/tensorflow/contrib/tfprof/tools/tfprof/tfprof \ 
--graph_path=/graph.pbtxt 


类 似 地 ， 我 们 用 graph_path 和 checkpoint_path 查 看 checkpoint 里 Tensor 
的 数据 和 相对 应 的 值 。 


bazel-bin/tensorflow/contrib/tfprof/tools/tfprof/tfprof \ 
--graph_path=graph.pbtxt \ 
--checkpoint_path=model.ckpt 


与 此 同时 ， 我 们 可 以 多 提供 一 个 run_meta_path 来 查看 不 同 op 请 求 的 
存储 和 计时 。 


bazel-bin/tensorflow/contrib/tfprof/tools/tfprof/tfprof \ 
--graph_path=graph.pbtxt \ 
--run_meta_path=run_meta \ 


--checkpoint_path=model.ckpt 


值得 注意 的 是 ， 上 面 用 到 了 rn meta path graph_path 和 
checkpoint_path 几 个 路 径 ， 我 们 是 怎么 得 到 这 几 种 类 型 的 文件 的 呢 ? 


graph_path 的 文件 是 GraphDef 文 本 文件 ， 用 来 在 内 存 里 建立 模型 的 代 
表 ， 例 如 用 tft.Supervisor 写 出 来 的 graph.pbtxt 就 是 一 个 GraphDef 文 本 文件 的 
例子 。 如 果 不 使 用 tf.Supervisor， 那 么 可 以 使 用 tf.Graph.as_graph_def() 或 者 
其 他 类 似 的 API 存 储 模 型 的 定义 到 一 个 GraphDef 文 件 里 。 


run_meta_path 所 需 的 文件 是 tensorflow::RunMetadata 的 结果 ， 这 个 方 
程 是 用 来 得 到 模型 中 每 个 op 所 需 的 存储 和 时 间 消 耗 的 ， 以 下 简单 的 几 行 
代码 可 以 写 出 一 个 RunMetadata 文 件 。 


run_options = config pb2.RunOptions( 
trace_level=config_pb2.RunOptions.FULL_TRACE) 

run_metadata = config_pb2.RunMetadata() 

_ = self._sess.run(..., options=run_options, run_metadata=run_metadata) 

with gfile.Open(os.path.join(output_dir, "run meta"), "w") as f: 


f.write(run_metadata.SerializeToString()) 


checkpoint_path 是 模型 的 checkpoint， 它 包含 了 所 有 checkpoint 的 变量 
的 op 类 型 、shape 和 它们 的 值 。 


读者 也 可 以 提供 其 他 的 路 径 ， 例 如 op log path 路 径 ， 它 是 
tensorflow::tfprof::OpLog 的 结果 ， 包 含 了 额外 的 op 的 信息 ， 由 于 它 包 含 了 
op 的 组 的 类 别名 字 ， 用 户 可 以 很 简单 地 综合 op 的 一 些 数据 ， 而 不 会 不 小 
心 错 过 其 中 一 部 分 op。 以 下 用 一 个 暴露 出 来 的 API 来 很 快 地 写 出 了 一 个 
OpLog 文 件 。 

tf.contrib.tfprof.tfprof_logger.write_op_log(graph,log_dir,op_log=None) 

由 于 tfprof 是 一 个 CLI 命 令 行 的 工具 ， 当 输入 之 前 的 tfprof 命 令 按 下 回 
车 键 时 ， 会 进入 互动 模式 ， 再 按 一 下 回 车 键 会 看 到 一 些 类 似 以 下 的 命令 
行 参 数 的 默认 值 。 


tfprof> 

-max_depth 4 
-min_bytes 0 
-min_micros 0 
-min_params 6 
-min_float_ops 6 
-device_regexes Aue 
-order_by name 
-account_type_regexes Variable 
-start_name_regexes ae 
-trim_name_regexes 
-show_name_regexes Tia 
-hide_name_regexes VariableInitialized_[0-9]+,save\/.*,^zeros[@0-9_]* 


-account_displayed_op_only false 
-select params 
-viz false 


-dump_to_file 


然后 就 可 以 调节 里 面 的 参数 ， 例 如 用 show_name_regexes 查 找 scope 名 
字 正 则 式 为 unit_1_0.*gamma，max_depth 为 5 的 变量 ， 查 看 这 些 tensor 的 
值 : 


tfprof> scope -show_name_regexes unit_1_@.*gamma -select tensor_value \ 


-max_depth 5 


读者 会 得 到 类 似 以 下 符合 条 件 的 tensor 的 值 : 


unit_1_@/shared_activation/init_bn/gamma () 


[1.80 2.10 2.06 1.91 2.26 1.86 1.81 1.37 1.78 1.85 1.96 1.54 2.04 2.34 2.22 


1.99 ], 

unit_1_0/sub2/bn2/gamma () 

[1.57 1:83 1.30 1.25 1.59 1.14 1.26 0.82 1.19 1.10 1.48 1.01 0.82 1.23 1.21 
T14 5] 


tfprof 提 供 了 两 种 类 型 的 分 析 : scope 和 graph。 当 读者 想 查看 一 些 变量 
和 scope 的 值 的 时 候 ， 你 可 以 使 用 scope， 也 就 是 我 们 上 面前 述 过 的 例子 。 
当 读 者 想 查 看 op 在 graph 里 所 花 的 内 存 和 时 间 时 ， 可 以 使 用 graph 查 看 。 

类 似 地 ， 可 以 改动 一 些 命令 行 参 数 ， 例 如 使 用 start_name_regexes 选 
择 想 要 查看 的 op 的 名 字 ， 这 里 我 们 假设 需要 查看 命名 为 cost 的 损失 op 的 内 
存 和 时 间 人 花费 的 情况 : 


tfprof> graph -start_name_regexes cost.* -max depth 100 -min micros 10000 \ 


-select micros -account_type_regexes .* 


init/init_conv/Conv2D (11.75ms/3.1@sec) 
random_shuffle_queue_DequeueMany (3.09sec/3.09sec) 
unit 1 @/sub2/conv2/Conv2D (74.14ms/3.19sec) 
unit_1_3/sub2/conv2/Conv2D (60.75ms/3.34sec) 
unit_2_4/sub2/conv2/Conv2D (73.58ms/3.54sec) 

unit 3 3/sub2/conv2/Conv2D (10.26ms/3.6@sec) 


我 们 就 先 简单 地 介绍 以 上 这 些 模块 ， 这 一 部 分 变化 很 大 ， 更 多 的 功 
能 还 需要 读者 自己 摸索 并 查看 官方 文档 。 
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1997.9.8.1735,Authors: Sepp Hochreiter,Jiirgen Schmidhuber 


58.https://github.com/tensorflow/models/blob/master/tutorials/rmn/ptb/ 
ptb_word_lm.py 


59.Bidirectional recurrent neural networks, [EEE Transactions on 
Signal Processing, Authors: Mike Schuster and Kuldip K.Paliwal 


60.https://github.com/aymericdamien/TensorFlow- 
Examples/blob/master/examples/3_ Neural Networks/bidirectional_rnn.py 


61.Human-level control through Deep Reinforcement Learning, 
Nature, Authors: Volodymyr Mnih,Koray Kavukcuoglu,David 
Silver,Andrei A.Rusu,Joel Veness,Marc G.Bellemare,Alex Graves,Martin 
Riedmiller,Andreas K.Fidjeland,Georg Ostrovski,Stig Petersen,Charles 
Beattie, Amir Sadik,loannis Antonoglou,Helen King,Dharshan 
Kumaran,Daan Wierstra,Shane Legg,Demis Hassabis 


62. Mastering the game of Go with deep neural networks and 
tree search, Nature, Authors: David Silver,Aja Huang,Chris 
J.Maddison,Arthur Guez,Laurent Sifre,George van den Driessche,Julian 
Schrittwieser,loannis Antonoglou, Veda Panneershelvam, Marc 
Lanctot,Sander Dieleman, Dominik Grewe,John Nham,Nal 
Kalchbrenner,Ilya Sutskever,Timothy Lillicrap,Madeleine Leach,Koray 
Kavukcuoglu, Thore Graepel, Demis Hassabis 


63. OpenAI Gym, htt p://arxiv.org/abs/1606.0154 0,Greg Brockman 
and Vicki Cheung and Ludwig Pettersson and Jonas Schneider and John 
Schulman and Jie Tang and Wojciech Zaremba 


64.https://github.com/awjuliani/DeepRL-A gents/blob/master/Policy- 
Network.ipynb 


65.Learning from Delayed Rewards,Ph _ .D.thesis,Cambridge 
University, Authors: Watkins,C.J.C.H. 


66.https://github.com/awjuliani/DeepRL-A gents/blob/master/Double- 
Dueling-DQN.ipynb 

67.https://github.com/tensorflow/tensorflow/blob/master/tensorflow/ex 
amples/tutorials/mnist/ mnist_with_summaries.py 


68.https://github.com/tensorflow/models/blob/master/tutorials/image/c 
ifar10/cifar10_multi_g pu_train.py 


69.https://github.com/tensorflow/tensorflow/blob/master/tensorflow/to 
ols/dist_test/python/mn ist_replica.py 


PPmoney 大 数据 算法 总 监 ， 负 责 集 团 的 风 控 、 理 财 、 互 联网 证 券 等 业务 的 数据 挖 
4 VE. Google TensorFlow Contributor。 前 明 略 数据 技术 合伙 人 ， 和 领导 了 对 诸多 
大 型 银行 、 保 险 公 司 、 基 金 的 数据 挖掘 项 目 ， 包 括 建立 金融 风 控 模型 、 新 闻 恤 
情 分 析 、 保 险 复 购 预 测 等 。 曾 就 职 于 阿里 巴巴 搜索 引擎 算法 团队 ， 负 责 天 猫 个 
性 化 搜索 系统 。 曾 参加 阿里 巴巴 大 数据 推荐 算法 大 赛 ， 于 7000 多 支队 伍 中 获得 
前 10 名 。 本 科 、 研 究 生 就 读 于 香港 科技 大 学 ， 曾 在 顶级 会 议和 期 刊 SIGMOBILE 
MobiCom, IEEE Transactions on Image Processing 发 表 论 文 ， 研究 成 果 获 美国 计 
算 机 协会 移动 计算 大 会 ( MobiCom ) 最 佳 移动 应 用 技术 冠军 ， 并 获得 两 项 美国 
专利 和 一 项 中 国 专利 . 


目前 在 芝加哥 的 Uptake 公 司 带领 团队 建立 用 于 多 个 物 联 网 领域 的 数据 科学 引擎 进 
行 条 件 和 健康 监控 ， 也 建立 了 公司 的 预测 模型 引擎 ， 现 在 被 用 于 航空 、 能 源 等 
大 型 机 械 领 域 。 一 直 活 跃 在 开源 软件 社区 ， 是 TensorFlow 和 DMLC 的 成 员 ， 是 
TensorFlow、XGBoost、MXNet 等 软件 的 committer，TF.Learn 、ggfortify 等 软件 
的 作者 ， 以 及 caret、pandas 等 软件 的 贡献 者 。 兽 获得 谷歌 Open Source Peer Bonus, 
以 及 多 项 高 校 和 企业 编程 竞赛 的 奖项 。 在 美国 宾 州 州立 大 学 获得 荣誉 数学 学 位 ， 
兽 在 本 科学 习 期 间 成 为 创业 公司 DataNovo 的 核心 创始 成 员 ， 研 究 专利 数据 挖掘、 
无 关键 字 现 有 技术 搜索 、 策 略 推荐 等 。 
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